Dataproc Metastore 核心概念

使用以下概念可帮助您了解 Dataproc Metastore 的工作原理以及可用于服务的不同功能。

Dataproc Metastore 版本

创建 Dataproc Metastore 服务时,您可以选择使用 Dataproc Metastore 2 服务Dataproc Metastore 1 服务

Dataproc Metastore 2

Dataproc Metastore 2 使用扩缩系数来确定您的服务在给定时间使用的资源数量。创建 Dataproc Metastore 2 后,您可以通过修改扩缩系数来扩缩服务。

  • Dataproc Metastore 2 是新一代服务,除了 Dataproc Metastore 功能之外,还提供横向可伸缩性。如需了解详情,请参阅功能和优点

  • Dataproc Metastore 2 的定价方案与 Dataproc Metastore 不同。如需了解详情,请参阅定价方案和伸缩配置

Dataproc Metastore 1

Dataproc Metastore 1 使用服务层级来确定服务在给定时间使用的资源数量。服务层级提供可预测的预定资源数量。

检查您的 Dataproc Metastore 版本

您可以在 Google Cloud 控制台中查看正在使用的 Dataproc Metastore 版本。

  • Dataproc Metastore 2:配置表包含以下值:Edition Enterprise - Single Region
  • Dataproc Metastore 1:配置表包含以下值之一:Tier: DEVELOPERTier: ENTERPRISE

Dataproc Metastore 常见术语

以下术语在整个 Dataproc Metastore 生态系统和文档中通用。

服务

  • Apache Hive。Hive 是一种基于 Apache Hadoop 构建的流行开源数据仓库系统。Hive 提供了一种类似于 SQL 的查询语言,名为 HiveQL,用于分析大型结构化数据集。
  • Apache Hive Metastore。Hive Metastore 保存有关 Hive 表的元数据,例如其架构和位置。
  • Dataproc。Dataproc 是 Google Cloud 上的一项快速、易用的全代管式服务,让您能够以简单、经济高效的方式运行 Apache Spark 和 Apache Hadoop 工作负载。创建 Dataproc Metastore 后,您可以从 Dataproc 集群连接到 Metastore。
  • Dataproc 集群。创建 Dataproc Metastore 服务后,您可以从 Dataproc 集群连接到该服务。您还可以将 Dataproc Metastore 与各种其他集群(例如自行管理的 Apache Hive、Apache Spark 或 Presto 集群)搭配使用。
  • Dataproc Metastore 服务。您在 Google Cloud 中创建的 Metastore 实例的名称。您的实现中可以使用一项或多项不同的 Metastore 服务。
  • Private Service Connect。借助 Private Service Connect,您可以设置与跨 VPC 网络的 Dataproc Metastore 元数据的专用连接。您可以将其用于网络,作为 VPC 对等互连的替代方案。
  • VPC Service Controls。VPC Service Controls 允许您创建边界来保护您明确指定的服务的资源和数据,从而提高降低 Google Cloud 服务数据渗漏风险的能力。

概念

  • 表格。所有 Hive 应用都有代管式内部或非代管式外部表,用于存储您的数据。
  • Hive 仓库目录。存储托管表数据的默认位置。
  • “工件”存储桶。Cloud Storage 存储桶,该存储分区是随您创建的每项 Metastore 服务在项目中自动创建的。此存储桶可用于存储服务工件,例如导出的元数据和代管式表数据。默认情况下,工件存储桶会存储 Dataproc Metastore 服务的默认仓库目录。
  • 端点。Dataproc Metastore 服务允许客户端通过一个或多个网络端点访问存储的 Hive Metastore 元数据。Dataproc Metastore 为这些端点提供 URI。
  • 端点协议。用于在 Dataproc Metastore 和 Hive Metastore 客户端之间通信的无线网络协议。Dataproc Metastore 支持 Apache Thrift 和 gRPC 端点。
  • 元数据联合。一项功能,可让您访问存储在多个 Dataproc Metastore 实例中的元数据。
  • 辅助版本。一项功能,可让您将多个 Hive 客户端版本连接到同一 Dataproc Metastore 服务。

Hive Metastore 概念

如需使用 Dataproc Metastore 服务,您需要了解 Hive Metastore 的基本概念。如需了解详情,请参阅 Hive Metastore

网络要求

Dataproc Metastore 服务需要网络访问权限才能正常运行。如需了解详情,请参阅配置网络要求

项目配置

部署 Dataproc 集群和 Dataproc Metastore 服务时,您可以使用多种可能的项目配置。如需了解详情,请参阅跨项目部署

后续步骤