借助以下概念,您可以了解 Dataproc Metastore 的运作方式以及可用于服务的不同功能。
Dataproc Metastore 版本
创建 Dataproc Metastore 服务时,您可以选择使用 Dataproc Metastore 2 服务或 Dataproc Metastore 1 服务。
Dataproc Metastore 2
Dataproc Metastore 2 使用缩放比例来确定服务在给定时间使用的资源量。创建 Dataproc Metastore 2 后,您可以通过修改缩放比例来向上或向下扩缩服务。
Dataproc Metastore 2 是新一代服务,除了 Dataproc Metastore 功能之外,还提供横向可伸缩性功能。如需了解详情,请参阅功能和优势。
Dataproc Metastore 2 的定价方案与 Dataproc Metastore 不同。如需了解详情,请参阅价格方案和伸缩配置。
Dataproc Metastore 1
Dataproc Metastore 1 使用服务层级来确定您的服务在给定时间使用的资源数量。服务层级可提供可预测的预定资源量。
检查 Dataproc Metastore 版本
您可以在Google Cloud 控制台中查看您使用的 Dataproc Metastore 版本。
- Dataproc Metastore 2:配置表包含以下值:Edition Enterprise - Single Region。
- Dataproc Metastore 1:配置表包含以下值之一:Tier: DEVELOPER 或 Tier: ENTERPRISE。
常见 Dataproc Metastore 术语
以下术语在整个 Dataproc Metastore 生态系统和文档中都很常用。
服务
- Apache Hive。Hive 是一种基于 Apache Hadoop 的主流开源数据仓库系统。Hive 提供了一种类似于 SQL 的查询语言,名为 HiveQL,用于分析大型结构化数据集。
- Apache Hive metastore。Hive Metastore 保存有关 Hive 表的元数据,例如其架构和位置。
- Dataproc。Dataproc 是 Google Cloud 上的一项快速、易用的全代管式服务,让您能够以简单、经济实惠的方式运行 Apache Spark 和 Apache Hadoop 工作负载。创建 Dataproc Metastore 后,您可以从 Dataproc 集群连接到该 Metastore。
- Dataproc 集群。创建 Dataproc Metastore 服务后,您可以从 Dataproc 集群连接到该服务。您还可以将 Dataproc Metastore 与各种其他集群搭配使用,例如自行管理的 Apache Hive、Apache Spark 或 Presto 集群。
- Dataproc Metastore 服务。您在 Google Cloud中创建的元存储区实例的名称。您的实现中可以有一个或多个不同的元数据存储区服务。
- Private Service Connect。Private Service Connect 可让您跨 VPC 网络与 Dataproc Metastore 元数据建立专用连接。您可以将其用于联网,作为 VPC 对等互连的替代方案。
- VPC Service Controls。VPC Service Controls 可帮助您降低 Google Cloud 服务中发生数据渗漏的风险,您可以通过创建边界来保护明确指定的服务的资源和数据。
概念
- 表格。所有 Hive 应用都拥有代管式内部表或非代管式外部表,用于存储您的数据。
- Hive 仓库目录。存储受管理表数据的默认位置。
- 工件存储桶。在您的项目中自动创建的 Cloud Storage 存储桶,与您创建的每个 Metastore 服务相关联。此存储桶可用于存储服务工件,例如导出的元数据和受管理表数据。默认情况下,工件存储桶会存储 Dataproc Metastore 服务的默认仓库目录。
- 端点。Dataproc Metastore 服务通过一个或多个网络端点为客户端提供对存储的 Hive Metastore 元数据的访问权限。Dataproc Metastore 会为这些端点提供 URI。
- 端点协议。用于在 Dataproc Metastore 和 Hive Metastore 客户端之间进行通信的线上传输网络协议。Dataproc Metastore 支持 Apache Thrift 和 gRPC 端点。
- 元数据联合。一项功能,可让您访问存储在多个 Dataproc Metastore 实例中的元数据。
- 辅助版本。一项功能,可让您将多个 Hive 客户端版本连接到同一 Dataproc Metastore 服务。
Hive Metastore 概念
使用 Dataproc Metastore 服务需要您了解基本的 Hive Metastore 概念。如需了解详情,请参阅 Hive Metastore。
网络要求
Dataproc Metastore 服务需要网络访问权限才能正常运行。如需了解详情,请参阅配置网络要求。
项目配置
部署 Dataproc 集群和 Dataproc Metastore 服务时,您可以采用多种可能的项目配置。如需了解详情,请参阅跨项目部署。