BigQuery Metastore 简介

BigQuery Metastore 是一种全托管式 Metastore,适用于 Google Cloud上的数据分析产品。它提供了一个可信来源,用于管理来自多个来源的元数据。您可以从 BigQuery 和各种开放数据处理引擎访问 Metastore,这使其成为数据分析师和工程师的实用工具。

例如,您可以将 BigQuery Metastore 用作目录,并将其与 Apache Spark 等开源查询引擎搭配使用。使用 Spark 创建的表可以使用 BigQuery 进行查询,而无需同步元数据。

优势

BigQuery Metastore 在数据管理和分析方面具有以下优势:

  • 无服务器架构。BigQuery Metastore 提供无服务器架构,从而无需进行服务器或集群管理。这有助于减少运营开销、简化部署并允许根据需求自动扩缩。
  • 引擎互操作性。BigQuery Metastore 可让您在 BigQuery 中直接访问表,从而无需进行额外配置即可查询存储在 BigQuery 中的开放格式表。例如,您可以在 Spark 中创建一个表,然后直接在 BigQuery 中查询该表。这有助于简化分析工作流,并减少对复杂数据移动或 ETL 流程的需求。
  • 统一的用户体验。BigQuery Metastore 可在 BigQuery 和 BigQuery Studio 之间提供统一的工作流。这样,您就可以直接在 BigQuery 和 BigQuery Studio 中使用 Spark。例如:

    首先,您可以使用 BigQuery Studio 笔记本在 Spark 中创建表。

    在 BQMS 中创建表

    接下来,您可以在 Google Cloud 控制台中查询同一个 Spark 表。

    在 BQMS 中查询表

受支持的集成

您可以将 BigQuery Metastore 与 Google Cloud 控制台、gcloud CLI 或 BigQuery REST API 搭配使用。

BigQuery Metastore 支持以下集成:

与 BigLake Metastore 的差异

BigQuery Metastore 是 Google Cloud上推荐使用的 Metastore。

BigQuery Metastore 与 BigLake Metastore 之间的核心区别包括以下详细信息:

  • BigLake Metastore 是一项独立的 Metastore 服务,这与 BigQuery 不同,并且它仅支持 Iceberg 表。它具有不同的三部分资源模型。不会从 BigQuery 自动发现 BigLake 中的表。

  • BigQuery Metastore 基于 BigQuery 目录,并直接与 BigQuery 集成。BigQuery Metastore 中的表可通过多个开源引擎进行更改,并且可以通过 BigQuery 查询相同的表。使用 BigQuery 时,元数据只有一个可信来源。例如,BigQuery Metastore 支持与 Spark 直接集成。此集成可提供更顺畅的工作流,并有助于减少存储元数据和运行作业时的冗余。

后续步骤