Dataproc Metastore 核心概念

以下概念有助于您了解 Dataproc Metastore 的运作方式以及您可以与该服务搭配使用的不同功能。

Dataproc Metastore 版本

创建 Dataproc Metastore 服务时,您可以选择使用 Dataproc Metastore 2 服务Dataproc Metastore 1 服务

Dataproc Metastore 2

Dataproc Metastore 2 使用缩放因子来确定您的服务在给定时间使用了多少资源。创建 Dataproc Metastore 2 后,您可以通过修改缩放因子来扩缩服务。

  • Dataproc Metastore 2 是新一代服务,除了提供 Dataproc Metastore 功能之外,还支持横向可伸缩性。如需了解详情,请参阅功能和优势

  • Dataproc Metastore 2 的定价方案不同于 Dataproc Metastore。如需了解详情,请参阅定价方案和伸缩配置

Dataproc Metastore 1

Dataproc Metastore 1 使用服务层级来确定您的服务在给定时间使用了多少资源。服务层级可提供可预测的预先确定的资源量。

检查您的 Dataproc Metastore 版本

您可以在 Google Cloud 控制台中查看自己使用的是哪个版本的 Dataproc Metastore。

  • Dataproc Metastore 2:配置表包含以下值:版本:企业版 - 单个区域
  • Dataproc Metastore 1:配置表包含以下值之一:层级:开发者层级:企业

常见的 Dataproc Metastore 术语

以下术语在 Dataproc Metastore 生态系统和文档中经常使用。

服务

  • Apache Hive。Hive 是一种基于 Apache Hadoop 的主流开源数据仓库系统。Hive 提供了一种类似于 SQL 的查询语言,名为 HiveQL,用于分析大型结构化数据集。
  • Apache Hive Metastore。Hive Metastore 保存有关 Hive 表的元数据,例如其架构和位置。
  • Dataproc。Dataproc 是 Google Cloud 上的一项快速、易用的全代管式服务,让您能够以简单、经济实惠的方式运行 Apache Spark 和 Apache Hadoop 工作负载。创建 Dataproc Metastore 后,您可以从 Dataproc 集群连接到它。
  • Dataproc 集群。创建 Dataproc Metastore 服务后,您可以从 Dataproc 集群连接到该服务。您还可以将 Dataproc Metastore 与各种其他集群(例如自行管理的 Apache Hive、Apache Spark 或 Presto 集群)搭配使用。
  • Dataproc Metastore 服务。您在 Google Cloud 中创建的元存储空间实例的名称。您的实现中可以有一个或多个不同的元存储服务。
  • Private Service Connect。借助 Private Service Connect,您可以跨 VPC 网络与 Dataproc Metastore 元数据建立专用连接。您可以将其用于网络连接,作为 VPC 对等互连的替代方案。
  • VPC Service Controls。VPC Service Controls 可帮助您降低 Google Cloud 服务中发生数据渗漏的风险,因为您可以创建边界来保护明确指定的服务的资源和数据。

概念

  • 表格。所有 Hive 应用都有用于存储数据的代管式内部表或非代管式外部表。
  • Hive 仓库目录。托管表数据的默认存储位置。
  • 工件存储桶。系统会在您创建每个元数据存储服务时,自动在您的项目中创建一个 Cloud Storage 存储桶。此存储桶可用于存储服务工件,例如导出的元数据和托管式表数据。默认情况下,工件存储桶会存储 Dataproc Metastore 服务的默认仓库目录。
  • 端点。Dataproc Metastore 服务可让客户端通过一个或多个网络端点访问存储的 Hive Metastore 元数据。Dataproc Metastore 会为这些端点提供 URI。
  • 端点协议。用于 Dataproc Metastore 和 Hive Metastore 客户端之间通信的在线网络协议。Dataproc Metastore 支持 Apache Thrift 和 gRPC 端点。
  • 元数据联合。此功能可让您访问存储在多个 Dataproc Metastore 实例中的元数据。
  • 辅助版本。此功能可让您将多个 Hive 客户端版本连接到同一 Dataproc Metastore 服务。

Hive Metastore 概念

若要使用 Dataproc Metastore 服务,您需要了解基本的 Hive Metastore 概念。如需了解详情,请参阅 Hive Metastore

网络要求

Dataproc Metastore 服务需要网络访问权限才能正常运行。如需了解详情,请参阅配置网络要求

项目配置

在部署 Dataproc 集群和 Dataproc Metastore 服务时,您可以使用多种可能的项目配置。如需了解详情,请参阅跨项目部署

后续步骤