BigQuery メタストアの概要
BigQuery メタストアは、 Google Cloudのデータ分析プロダクト用のフルマネージド メタストアです。複数のソースのメタデータを管理するための信頼できる唯一の情報源を提供します。BigQuery やさまざまなオープンデータ処理エンジンからアクセスできる Metastore は、データ アナリストやエンジニアにとって有用なツールです。
たとえば、Apache Spark などのオープンソース クエリエンジンで、BigQuery メタストアをカタログとして使用できます。Spark を使用して作成されたテーブルは、メタデータを同期しなくても BigQuery を使用してクエリできます。
利点
BigQuery メタストアには、データ管理と分析に次のような利点があります。
- サーバーレス アーキテクチャ.BigQuery メタストアはサーバーレス アーキテクチャを提供するため、サーバーやクラスタの管理は不要です。これにより、運用上のオーバーヘッドを削減し、デプロイを簡素化し、需要に応じた自動スケーリングが可能になります。
- エンジンの相互運用性。BigQuery Metastore を使用すると、BigQuery でテーブルに直接アクセスできるため、追加の構成なしで BigQuery に保存されているオープン形式のテーブルをクエリできます。たとえば、Spark でテーブルを作成し、BigQuery で直接クエリを実行できます。これにより、分析ワークフローを効率化し、複雑なデータ移動や ETL プロセスの必要性を軽減できます。
統合されたユーザー エクスペリエンス。BigQuery メタストアは、BigQuery と BigQuery Studio にわたる統合ワークフローを提供します。これにより、BigQuery と BigQuery Studio で Spark を直接使用できます。次に例を示します。
まず、BigQuery Studio ノートブックで Spark にテーブルを作成します。
次に、Google Cloud コンソールで同じ Spark テーブルに対してクエリを実行できます。
サポートされている統合
BigQuery メタストアは、 Google Cloud コンソール、gcloud CLI、BigQuery REST API で使用できます。
BigQuery メタストアは、次の統合をサポートしています。
- 表形式。Apache Iceberg 1.5.2 以降。
- Dataproc。バージョン 2.2 以降。
- データ処理エンジン。Spark バージョン 3.3 以降。
- プラグイン。BigQuery Metastore Iceberg カタログ プラグイン。
BigLake Metastore との違い
Google Cloudでは、BigQuery メタストアが推奨のメタストアです。
BigQuery Metastore と BigLake Metastore の主な違いは次のとおりです。
BigLake Metastore は、BigQuery とは異なるスタンドアロンのメタストア サービスであり、Iceberg テーブルのみをサポートします。3 つの部分からなるリソースモデルが異なります。BigLake のテーブルは BigQuery から自動的に検出されません。
BigQuery メタストアは BigQuery カタログに基づいており、BigQuery と直接統合されています。BigQuery Metastore のテーブルは複数のオープンソース エンジンから変更可能で、同じテーブルを BigQuery からクエリできます。BigQuery を使用する場合、メタデータの信頼できる情報源は 1 つだけです。たとえば、BigQuery メタストアは Spark との直接統合をサポートしています。この統合により、よりシームレスなワークフローが実現し、メタデータの保存とジョブの実行時の冗長性が軽減されます。
次のステップ
- Dataproc Metastore データを BigQuery Metastore に移行する
- Dataproc で BigQuery Metastore を使用する
- Dataproc Serverless で BigQuery メタストアを使用する