BigQuery 元存储空间简介

BigQuery Metastore 是 Google Cloud上数据分析产品的全代管式元数据存储库。它提供了一个单一可信来源,用于管理来自多个来源的元数据。您可以通过 BigQuery 和各种开源数据处理引擎访问元存储,这使其成为数据分析师和工程师的实用工具。

例如,您可以将 BigQuery Metastore 用作与 Apache Spark 等开源查询引擎搭配使用的目录。您可以使用 BigQuery 查询使用 Spark 创建的表,而无需同步元数据。

优势

BigQuery 元存储区在数据管理和分析方面具有多项优势:

  • 无服务器架构。BigQuery 元存储空间采用无服务器架构,无需进行服务器或集群管理。这有助于降低运维开销、简化部署,并允许根据需求自动扩缩。
  • 引擎互操作性。BigQuery 元存储库可让您在 BigQuery 中直接访问表,无需进行额外配置即可查询存储在 BigQuery 中的开放格式表。例如,您可以在 Spark 中创建表,然后直接在 BigQuery 中对其进行查询。这有助于简化分析工作流,减少复杂的数据移动或 ETL 流程的需求。
  • 统一的用户体验。BigQuery 元存储空间可在 BigQuery 和 BigQuery Studio 中提供统一的工作流。这样,您就可以直接在 BigQuery 和 BigQuery Studio 中使用 Spark。例如:

    首先,您可以使用 BigQuery Studio 笔记本在 Spark 中创建表。

    在 BQMS 中创建表

    接下来,您可以在Google Cloud 控制台中查询同一 Spark 表。

    在 BQMS 中查询表

受支持的集成

您可以将 BigQuery 元存储区与 Google Cloud 控制台、gcloud CLI 或 BigQuery REST API 搭配使用。

BigQuery 元存储空间支持以下集成:

与 BigLake Metastore 的差异

BigQuery 元存储空间是 Google Cloud上的推荐元存储空间。

BigQuery Metastore 和 BigLake Metastore 之间的核心差异包括以下详细信息:

  • BigLake Metastore 是一个独立的元存储服务,与 BigQuery 不同,并且仅支持 Iceberg 表。它采用了三部分不同的资源模型。BigQuery 不会自动发现 BigLake 中的表。

  • BigQuery 元存储空间基于 BigQuery 目录,并直接与 BigQuery 集成。BigQuery 元存储库中的表可通过多个开源引擎进行更改,并且可以从 BigQuery 查询同一表。使用 BigQuery 时,元数据只有一个可信来源。例如,BigQuery 元存储空间支持与 Spark 直接集成。此集成可提供更顺畅的工作流,并有助于减少存储元数据和运行作业时的冗余。

后续步骤