使用以下概念可帮助您了解 Dataproc Metastore 的工作原理以及可用于服务的不同功能。
Dataproc Metastore 版本
创建 Dataproc Metastore 服务时,您可以选择使用 Dataproc Metastore 2 服务或 Dataproc Metastore 1 服务。
Dataproc Metastore 2
Dataproc Metastore 2 使用扩缩系数来确定您的服务在给定时间使用的资源数量。创建 Dataproc Metastore 2 后,您可以通过修改扩缩系数来扩缩服务。
Dataproc Metastore 2 是新一代服务,除了 Dataproc Metastore 功能之外,还提供横向可伸缩性。如需了解详情,请参阅功能和优点。
Dataproc Metastore 2 的定价方案与 Dataproc Metastore 不同。如需了解详情,请参阅定价方案和伸缩配置。
Dataproc Metastore 1
Dataproc Metastore 1 使用服务层级来确定服务在给定时间使用的资源数量。服务层级提供可预测的预定资源数量。
检查您的 Dataproc Metastore 版本
您可以在 Google Cloud 控制台中查看正在使用的 Dataproc Metastore 版本。
- Dataproc Metastore 2:配置表包含以下值:Edition Enterprise - Single Region。
- Dataproc Metastore 1:配置表包含以下值之一:Tier: DEVELOPER 或 Tier: ENTERPRISE。
Dataproc Metastore 常见术语
以下术语在整个 Dataproc Metastore 生态系统和文档中通用。
服务
- Apache Hive。Hive 是一种基于 Apache Hadoop 构建的流行开源数据仓库系统。Hive 提供了一种类似于 SQL 的查询语言,名为 HiveQL,用于分析大型结构化数据集。
- Apache Hive Metastore。Hive Metastore 保存有关 Hive 表的元数据,例如其架构和位置。
- Dataproc。Dataproc 是 Google Cloud 上的一项快速、易用的全代管式服务,让您能够以简单、经济高效的方式运行 Apache Spark 和 Apache Hadoop 工作负载。创建 Dataproc Metastore 后,您可以从 Dataproc 集群连接到 Metastore。
- Dataproc 集群。创建 Dataproc Metastore 服务后,您可以从 Dataproc 集群连接到该服务。您还可以将 Dataproc Metastore 与各种其他集群(例如自行管理的 Apache Hive、Apache Spark 或 Presto 集群)搭配使用。
- Dataproc Metastore 服务。您在 Google Cloud 中创建的 Metastore 实例的名称。您的实现中可以使用一项或多项不同的 Metastore 服务。
- Private Service Connect。借助 Private Service Connect,您可以设置与跨 VPC 网络的 Dataproc Metastore 元数据的专用连接。您可以将其用于网络,作为 VPC 对等互连的替代方案。
- VPC Service Controls。VPC Service Controls 允许您创建边界来保护您明确指定的服务的资源和数据,从而提高降低 Google Cloud 服务数据渗漏风险的能力。
概念
- 表格。所有 Hive 应用都有代管式内部或非代管式外部表,用于存储您的数据。
- Hive 仓库目录。存储托管表数据的默认位置。
- “工件”存储桶。Cloud Storage 存储桶,该存储分区是随您创建的每项 Metastore 服务在项目中自动创建的。此存储桶可用于存储服务工件,例如导出的元数据和代管式表数据。默认情况下,工件存储桶会存储 Dataproc Metastore 服务的默认仓库目录。
- 端点。Dataproc Metastore 服务允许客户端通过一个或多个网络端点访问存储的 Hive Metastore 元数据。Dataproc Metastore 为这些端点提供 URI。
- 端点协议。用于在 Dataproc Metastore 和 Hive Metastore 客户端之间通信的无线网络协议。Dataproc Metastore 支持 Apache Thrift 和 gRPC 端点。
- 元数据联合。一项功能,可让您访问存储在多个 Dataproc Metastore 实例中的元数据。
- 辅助版本。一项功能,可让您将多个 Hive 客户端版本连接到同一 Dataproc Metastore 服务。
Hive Metastore 概念
如需使用 Dataproc Metastore 服务,您需要了解 Hive Metastore 的基本概念。如需了解详情,请参阅 Hive Metastore。
网络要求
Dataproc Metastore 服务需要网络访问权限才能正常运行。如需了解详情,请参阅配置网络要求。
项目配置
部署 Dataproc 集群和 Dataproc Metastore 服务时,您可以使用多种可能的项目配置。如需了解详情,请参阅跨项目部署。