データ分析

Apache Iceberg をサポートする統合メタデータサービス、BigQuery metastore のご紹介

2025年1月30日

Yuri Volobuev

Principal Engineer

Vinod Ramachandran

Senior Product Manager, Google

Try Gemini 3

Our most intelligent model is now available on Vertex AI and Gemini Enterprise

Try now

※この投稿は米国時間 2025 年 1 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。

組織で BigQuery、Apache Spark、Apache Flink、Apache Hive といった複数のデータ処理エンジンを使用している場合、すべての分析ワークロードに対して信頼できる唯一の情報源を提供できたら素晴らしいと思いませんか。公開プレビュー版としてリリースされた BigQuery metastore は、それを可能にします。BigQuery metastore は一貫したデータガバナンスを実現しつつ、処理エンジンの相互運用性を提供する、フルマネージドの統合メタデータサービスです。

BigQuery metastore は、スケーラビリティに優れたランタイムメタデータサービスで、BigQuery、Apache Spark、Apache Hive、Apache Flink などの複数のエンジンに対応し、オープンソースのテーブル形式である Apache Iceberg をサポートします。これにより、BigQuery ストレージテーブル、Apache Iceberg 用 BigQuery テーブル、BigLake 外部テーブルのいずれにデータが保存されていても、分析エンジンは単一のスキーマを使用する、データの 1 つのコピーをクエリするだけで済みます。BigQuery metastore は、従来のデータレイクから最新のレイクハウスアーキテクチャに移行してモダナイズすることを検討しているお客様にとって、重要なコンポーネントとなります。BigQuery のエンタープライズ機能と緊密に統合されており、ユーザーのデータ操作に組み込みのセキュリティとガバナンスを適用します。

メタデータ管理の課題

従来、メタストアとその他のメタデータ管理システムは、データ処理エンジンと密接に関連しています。複数の処理エンジンを使用しているということは、データやメタデータの複数のコピーが維持され、それぞれが異なるメタストアに保持されていることになります。たとえば、Hive Metastore で Spark などのオープンソースエンジンからクエリするためのテーブル定義を作成した場合、BigQuery で同じデータをクエリするにはテーブル定義を再作成する必要があります。また、テーブル定義を異なるメタストア間で同期させるには、パイプラインを構築する必要があります。このような断片化により、最新ではないメタデータ、データリネージの可視性の欠如、セキュリティやアクセス面の課題、水準以下のユーザーエクスペリエンスといった問題が生じる可能性があります。

レイクハウス時代のメタストア

BigQuery metastore は、レイクハウスアーキテクチャ向けに設計されています。レイクハウスはデータレイクとデータウェアハウスの両方の利点を兼ね備えており、あらゆるデータ、ユーザー、ワークロードを 1 つの統合プラットフォームで管理できるため、データレイクとデータウェアハウスの両方を管理する必要がなくなります。BigQuery metastore は Apache Iceberg などのオープンソースデータ形式をサポートしており、BigQuery、Spark、Flink、Hive といったさまざまな処理エンジンでアクセスできます。さまざまなエンジン間でメタデータを統合することで、データをより簡単に発見し、活用できるようになるため、データガバナンスを維持しつつ、セルフサービスの BI ツールおよび ML ツールによるイノベーションを促進できます。

さらに、BigQuery metastore はサーバーレスで設定も構成も不要なうえ、ワークロードに合わせて自動的にスケールされます。この NoOps 環境により、TCO が削減され、データアナリスト、データエンジニア、データサイエンティストの誰もがデータを簡単に利用できるようになります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_irraJcJ.max-2000x2000.png

BigQuery metastore の主な利点は次のとおりです。

エンジン間の相互運用性: BigQuery metastore は、レイクハウスアーキテクチャ向けの単一の共有メタストアとして、レイクハウス内のすべてのデータソースにわたるすべてのメタデータの統合ビューを提供するため、ユーザーは必要なデータを簡単に見つけて把握できます。これにより、オブジェクトストア、BigQuery ストレージ、分析ランタイム全体にオープン形式や独自の形式で保存されたデータに対して、クエリ処理や DML を実行できます。
オープン形式とカタログのサポート: BigQuery metastore は、BigQuery ストレージテーブル、Apache Iceberg 用 BigQuery テーブル、外部テーブルに対応しています。
組み込みのガバナンス: BigQuery metastore は、自動カタログ化機能やユニバーサル検索、ビジネスメタデータ、データプロファイリング、データ品質、きめ細かいアクセス制御、データマスキング、データ共有、データリネージ、監査ロギングなど、BigQuery で提供される主要なガバナンス機能と統合されています。
BigQuery 規模のフルマネージド: BigQuery metastore はサーバーレスのフルマネージドサービスであるため、使いやすく、主要なエンジン（BigQuery、Spark、Hive、Flink）と統合されています。BigQuery metastore に使用されているインフラストラクチャ基盤は、アプリケーションのクエリ処理量の増加に合わせたスケーリングと、BigQuery 規模のトラフィック処理を可能にします。

BigQuery metastore の実例

では、BigQuery metastore の使用方法を見ていきましょう。以下の PySpark スクリプトは、BigQuery ストレージテーブル、Apache Iceberg 用 BigQuery テーブル、BigQuery 外部テーブルを操作する Spark 環境をセットアップします。詳細なドキュメントについては、こちらをご覧ください。

読み込んでいます...

from pyspark.sql import SparkSession
# Spark セッションを作成
spark = SparkSession.builder \
.appName("BigQuery Metastore Iceberg") \
.config("spark.sql.catalog.CATALOG_NAME", "org.apache.iceberg.spark.SparkCatalog") \
.config("spark.sql.catalog.CATALOG_NAME.catalog-impl", "org.apache.iceberg.gcp.bigquery.BigQueryMetastoreCatalog") \
.config("spark.sql.catalog.CATALOG_NAME.gcp_project", "PROJECT_ID") \
.config("spark.sql.catalog.CATALOG_NAME.gcp_location", "LOCATION") \
.config("spark.sql.catalog.CATALOG_NAME.warehouse", "WAREHOUSE_DIRECTORY") \
.getOrCreate()
spark.conf.set("viewsEnabled","true")
# CATALOG_NAME を使用
spark.sql("USE `CATALOG_NAME`;")
spark.sql("USE NAMESPACE DATASET_NAME;")
# 一時的な結果用に Spark を設定
spark.sql("CREATE NAMESPACE IF NOT EXISTS MATERIALIZATION_NAMESPACE");
spark.conf.set("materializationDataset","MATERIALIZATION_NAMESPACE")
# データセット内のテーブルをリスト
df = spark.sql("SHOW TABLES;")
df.show();
# BigQuery ストレージ テーブルをクエリ
sql = """SELECT * FROM DATASET_NAME.TABLE_NAME"""
df = spark.read.format("bigquery").load(sql)
df.show()
# Apache Iceberg 用 BigQuery テーブルをクエリ
sql = """SELECT * FROM DATASET_NAME.ICEBERG_TABLE_NAME"""
df = spark.read.format("bigquery").load(sql)
df.show()
# BigQuery の読み取り専用 Apache Iceberg 外部テーブルをクエリ
sql = """SELECT * FROM DATASET_NAME.READONLY_ICEBERG_TABLE_NAME"""
df = spark.read.format("bigquery").load(sql)
df.show()

このスクリプトをご自身の環境に合わせてカスタマイズするには、次の変数を置き替えます。

WAREHOUSE_DIRECTORY: データウェアハウスが格納された Cloud Storage フォルダの URI
CATALOG_NAME: 使用しているカタログの名前
MATERIALIZATION_NAMESPACE: 一時的な結果を保存する名前空間

その他のリソース

BigQuery metastore を使用することで、メタデータ管理のニーズを満たす最新のサーバーレスソリューションを手に入れて、組み込みのガバナンスを備えたエンジン間の相互運用性を実現できます。BigQuery metastore を今すぐ試すには、こちらのドキュメントをご覧ください。Dataproc Metastore から BigQuery metastore に移行する場合は、移行ツールに関するドキュメントをご覧ください。

-プリンシパルエンジニア Yuri Volobuev
-シニアプロダクトマネージャー Vinod Ramachandran

投稿先

Data Analytics

BigQuery の会話型分析のご紹介

執筆者: Vasiya Krishnan • 所要時間: 3 分

Data Analytics

Dataflow の ML インフラストラクチャに関する最新情報

執筆者: Efesa Origbo • 所要時間: 3 分

Data Analytics

BigQuery AI: Gemini 3.0 対応、エンベディング生成の簡素化、新しい類似度関数

執筆者: Tianxiang Gao • 所要時間: 5 分

Data Analytics

Cloud Composer で Apache Airflow 3.1 を活用し、ワークフローオーケストレーションを強化

執筆者: Piotr Wieczorek • 所要時間: 4 分

Apache Iceberg をサポートする統合メタデータ サービス、BigQuery metastore のご紹介

Yuri Volobuev

Vinod Ramachandran

Try Gemini 3

メタデータ管理の課題

レイクハウス時代のメタストア

BigQuery metastore の実例

その他のリソース

-プリンシパル エンジニア Yuri Volobuev-シニア プロダクト マネージャー Vinod Ramachandran

関連記事

BigQuery の会話型分析のご紹介

Dataflow の ML インフラストラクチャに関する最新情報

BigQuery AI: Gemini 3.0 対応、エンベディング生成の簡素化、新しい類似度関数

Cloud Composer で Apache Airflow 3.1 を活用し、ワークフロー オーケストレーションを強化

Apache Iceberg をサポートする統合メタデータサービス、BigQuery metastore のご紹介

-プリンシパルエンジニア Yuri Volobuev
-シニアプロダクトマネージャー Vinod Ramachandran

Cloud Composer で Apache Airflow 3.1 を活用し、ワークフローオーケストレーションを強化