Dataproc Metastore 是在 Google Cloud上运行的全代管式 Apache Hive metastore (HMS)。(HMS) 是开源大数据生态系统中用于管理关系型数据库中的架构、分区和列统计信息等技术元数据的既定标准。
Dataproc Metastore 具有高可用性、自动修复和无服务器功能。使用它来管理数据湖元数据,并在您使用的各种数据处理引擎和工具之间提供互操作性。
Dataproc Metastore 的工作原理
您可以通过将 Dataproc Metastore 服务连接到 Dataproc 集群来使用该服务。Dataproc 集群包含依赖于 HMS 来驱动查询规划和执行的组件。
通过此集成,您可以在作业之间保留表信息,或使元数据可供其他集群和其他处理引擎使用。
例如,实现元数据存储区可能有助于您指定部分文件包含收入数据,而无需手动跟踪文件名。在这种情况下,您可以为这些文件定义一个表,并将元数据存储在 Dataproc Metastore 中。之后,您可以将其连接到 Dataproc 集群,并使用 Hive、Spark SQL 或其他查询服务查询表中的信息。
Dataproc Metastore 版本
创建 Dataproc Metastore 服务时,您可以选择使用 Dataproc Metastore 2 服务或 Dataproc Metastore 1 服务。
Dataproc Metastore 2 是新一代服务,除了 Dataproc Metastore 1 的功能之外,还提供横向可伸缩性功能。如需了解详情,请参阅功能和优势。
Dataproc Metastore 2 的定价方案与 Dataproc Metastore 不同。如需了解详情,请参阅价格方案和伸缩配置。
常见使用场景
除非另有说明,否则 Dataproc Metastore 2 和 Dataproc Metastore 1 均支持本部分中列出的所有使用场景。
为数据赋予意义。创建可在多个临时 Dataproc 集群之间共享的集中式元数据存储库。使用不同的开源软件 (OSS) 引擎,例如 Apache Hive、Apache Spark 和 Presto。
构建统一的数据视图。在Google Cloud 服务(例如 Dataproc、Dataplex Universal Catalog 和 BigQuery)之间提供互操作性,或在Google Cloud上使用其他基于开源的合作伙伴产品。
特性和优势
除非另有说明,否则 Dataproc Metastore 2 和 Dataproc Metastore 1 均支持本部分中列出的所有功能。
OSS 兼容性。连接到您现有的数据处理引擎,例如 Apache Hive、Apache Spark 和 Presto。
管理。借助经过全面配置的监控和操作任务,您可以在几分钟内创建或更新元数据存储区。
集成。与其他 Google Cloud 产品集成,例如将 BigQuery 用作 Dataproc 集群的元数据来源。
内置安全性。使用既定的 Google Cloud 安全协议,例如 Identity and Access Management (IAM) 和 Kerberos 身份验证。
简单导入。将存储在外部 Hive Metastore 中的现有元数据导入 Dataproc Metastore 服务。
自动备份。配置自动 Metastore 备份,以帮助避免数据丢失。
效果监控。设置性能层级,以动态响应高强度工作负载和峰值,而无需预热或缓存。
高可用性 (HA)。
- Dataproc Metastore 2. 提供可用区级高可用性 (HA),无需进行任何特定配置或持续管理。这是通过在所选区域的多个可用区中自动复制后端数据库和 HMS 服务器来实现的。除了可用区级 HA 之外,Dataproc Metastore 2 还支持区域级 HA 和灾难恢复 (DR)。
- Dataproc Metastore 1. 默认情况下,提供可用区级高可用性 (HA),无需任何特定配置或持续管理。这是通过在您选择的区域中的多个可用区自动复制后端数据库和 HMS 服务器来实现的。
如需详细了解特定于区域的注意事项,请参阅地理位置和区域。
可伸缩性。
- Dataproc Metastore 2. 使用横向扩缩比例来确定服务在给定时间需要使用的资源数量。 您可以手动控制缩放比例,也可以根据需要将其设置为自动缩放。
- Dataproc Metastore 1. 设置服务时,您可以选择开发者层级或企业层级。此层级决定了您的服务在给定时间需要使用的资源数量。
支持。享受标准 Google Cloud 服务等级协议 (SLA) 和支持渠道。
与 Google Cloud集成
除非另有说明,否则 Dataproc Metastore 1 和 Dataproc Metastore 2 均支持本部分中列出的所有集成。
- Dataproc。连接到 Dataproc 集群,以便为 OSS 大数据工作负载提供元数据。
- BigQuery。在 Dataproc 工作负载中查询 BigQuery 数据集。
- Dataplex Universal Catalog。查询在 Dataplex Universal Catalog 数据湖中发现的结构化数据和半结构化数据。
- Data Catalog。将 Dataproc Metastore 与 Data Catalog 同步,以启用元数据搜索和发现功能。
- 日志记录和监控。将 Dataproc Metastore 与 Cloud Monitoring 和 Logging 产品集成。
- 身份验证和 IAM。依赖其他Google Cloud 产品使用的标准 OAuth 身份验证,该身份验证支持使用精细的 Identity and Access Management 角色来对个别资源进行访问权限控制。
后续步骤
- 首先,请参阅快速入门指南部署 Dataproc Metastore 服务。
- 了解 Dataproc Metastore 价格。
- 了解 Dataproc Metastore 的配额和限制。
- 阅读 Dataproc Metastore 版本说明。
- 使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc Metastore API 访问 Dataproc Metastore。