データ分析

進化した BigLake: オープンで高パフォーマンスなエンタープライズ向け Iceberg ネイティブレイクハウスを構築する

2025年6月5日

Yuriy Zhovtobryukh

Senior Product Manager, Google

Vinod Ramachandran

Senior Product Manager, Google

Try Gemini 2.5

Our most intelligent model is now available on Vertex AI

Try now

※この投稿は米国時間 2025 年 5 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。

データマネジメントは変化を続けています。企業は、複数のエンジンが 1 つのデータコピーで動作できる、柔軟かつオープンで相互運用可能なアーキテクチャを必要としています。Apache Iceberg は優れたオープンテーブル形式として登場しましたが、実際のデプロイでは、Apache Iceberg のオープン性を受け入れる一方でエンタープライズグレードのフルマネージドストレージ管理において妥協するか、マネージドストレージを選択する代わりにオープン形式の柔軟性を犠牲にするか、というジレンマに直面するお客様がよく見られます。

このたび、Google は BigLake のイノベーションを発表しました。BigLake は、Google Cloud でオープンなデータレイクハウスを構築するための基盤となるストレージエンジンであり、Google のインフラストラクチャのメリットを Apache Iceberg にもたらし、オープン形式の柔軟性とエンタープライズグレードの高パフォーマンスマネージドストレージとのトレードオフを解消するものです。今回のイノベーションの内容は次のとおりです。

分析システムとトランザクションシステムのオープンな相互運用性: 以前は BigQuery metastore と呼ばれていた、フルマネージド、サーバーレス、スケーラブルな BigLake Metastore の一般提供を開始いたしました。これは、ランタイムのメタデータ管理を簡素化し、BigQuery と他の Iceberg 互換エンジンにわたり機能するものです。Google の地球規模のメタデータ管理インフラストラクチャを活用しているため、metastore のカスタムデプロイを管理する必要がなくなります。さらに、Iceberg REST Catalog API（プレビュー版）のサポートも導入されます。BigLake Metastore は相互運用性の基盤を提供し、BigQuery、AlloyDB（プレビュー版）、Iceberg 互換のオープンソースエンジン（Spark や Flink など）を含む複数のランタイムにわたって Cloud Storage と BigQuery のすべてのストレージデータにアクセスすることを可能にします。
新しい高パフォーマンスの Iceberg ネイティブ Cloud Storage: テーブルメンテナンス（圧縮とガベージコレクションを含む）の自動化や、Google Cloud Storage 管理ツール（自動クラス階層化や暗号化を含む）とのインテグレーションにより、レイクハウスの管理を簡素化します。BigQuery 内の Apache Iceberg 用 BigLake テーブルの一般提供を通じて、オープン形式と BigQuery のスケーラビリティに優れたリアルタイムメタデータを組み合わせることで、レイクハウスが強化されます。これにより、高スループットストリーミング、自動再クラスタリング、マルチテーブルトランザクション（近日提供開始予定）、Vertex AI とのネイティブインテグレーションが可能になり、レイクハウスで Google Cloud AI の機能を活用できるようになります。
Google Cloud 全体にわたる AI を活用したガバナンス: BigLake におけるこれらの更新は、Dataplex Universal Catalog によってネイティブにサポートされているため、サポートされているすべてのエンジンにわたって統合されたきめ細かいアクセス制御を提供し、包括的なリネージ、データ品質、検出可能性の機能を含むエンドツーエンドのガバナンスを実現します。

これらの変更により、BigLake は、オープンで高パフォーマンスなエンタープライズグレードのレイクハウスを Google Cloud 上で構築できるように設計された包括的なストレージエンジンへと進化しました。構築の際には、Google Cloud のサービスや、オープンソースとサードパーティの Iceberg 互換エンジンを使用できます。このため、オープンソリューションとマネージドソリューションのトレードオフが解消され、データと AI のイノベーションが加速します。

「組織全体のチームが、データの保存場所や使用しているツールに関係なく、一貫性のある安全な方法でデータにアクセスできるようにしたいと考えました。Google の BigLake は自然な選択でした。BigQuery を介して、データにアクセスするための統合レイヤと、エンタープライズ機能によるフルマネージドエクスペリエンスが提供されます。Apache Iceberg のようなオープンテーブル形式でも、従来のテーブルでも、データを移動または複製する必要はありません。生成 AI の潜在的なユースケースを探求し続けるためには、メタデータの品質が非常に重要です。当社は、BigLake Metastore と Data Catalog を利用して、高品質のメタデータを維持しています。」- CME Group、エグゼクティブディレクター、Zenul Pomal 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_gXpvBr7.max-800x800.png

オープンで相互運用が可能

BigLake Metastore は、BigLake の相互運用性の中核をなすものであり、Cloud Storage と BigQuery ストレージの間でデータを接続するための 2 つの主要なカタログインターフェースを提供します。

Iceberg REST カタログ（プレビュー版）は、より広範な互換性のために標準 REST インターフェースを提供します。これにより、たとえば Spark ユーザーは、BigLake Metastore をサーバーレスの Iceberg カタログとして利用できます。
カスタム Iceberg カタログ（一般提供中）を使用すると、Spark やその他のオープンソースエンジンが Apache Iceberg 用 BigLake テーブルを操作し、BigQuery と相互運用できるようになります。その実装は一般公開の Iceberg ライブラリと直接統合されているため、追加の JAR ファイルは必要ありません。

読み込んでいます...

BigQuery 内で作成された Apache Iceberg 用 BigLake テーブルに対しては、ネイティブの Apache Iceberg ライブラリを使用して、オープンソースエンジンやサードパーティエンジンからクエリを実行できます。これを可能にするため、BigLake は Apache Iceberg V2 仕様に準拠したメタデータスナップショットを自動的に生成します。このスナップショットは BigLake Metastore に登録され、その結果、オープンソースエンジンがカスタム Iceberg カタログインテグレーションを通じてデータをクエリできます。重要な点として、これらのメタデータスナップショットは、テーブル変更（DML オペレーション、データ読み込み、ストリーミング更新、最適化など）が発生すると必ず自動的に更新されて最新の状態が維持されるため、外部エンジンは常に最新のデータを使用することになります。

この強化された相互運用性の重要な側面は、分析ワークロードとトランザクションワークロードを橋渡しすることです。これは AlloyDB ユーザーにとって特に強力な機能です。現在では、Apache Iceberg の分析用 BigLake テーブルを AlloyDB（プレビュー版）内で直接シームレスに使用できるようになりました。これにより、PostgreSQL ユーザーは、この豊富な分析データを AlloyDB の最新のトランザクションデータと組み合わせることができるようになり、セマンティック検索、自然言語インターフェース、統合 AI クエリエンジンなどの高度な AlloyDB 機能を活用することで、AI を活用したアプリケーションとリアルタイムの運用ユースケースを強化できます。BigQuery、AlloyDB、オープンソースエンジンにまたがるこの統合アプローチにより、プラットフォームにおける Iceberg データの価値を最大限に引き出すことができます。

BigLake Metastore
対応しているテーブル	Apache Iceberg 用 BigLake テーブル	BigQuery 内の Apache Iceberg 用 BigLake テーブル	BigQuery テーブル
ストレージ	Cloud Storage		BigQuery
管理	Google 管理
読み取り / 書き込み機能（R / W）	OSS エンジン（R / W） BigQuery（R）	BigQuery（R / W） BigQuery Storage API を使用した OSS エンジン（R / W） Iceberg ライブラリを使用した OSS エンジン（R）	BigQuery（R / W） BigQuery Storage API を使用した OSS エンジン（R / W）
ユースケース	オープンレイクハウス	高度な分析、ストリーミング、AI 向けのエンタープライズグレードのストレージを備えたオープンレイクハウス	高度な分析、ストリーミング、AI 向けのエンタープライズグレードのストレージ

新しい高パフォーマンスの Iceberg ネイティブストレージ

Apache Iceberg 用 BigLake テーブルは、Cloud Storage 上で直接 Iceberg ネイティブのストレージエクスペリエンスを実現します。これらのテーブルは、Spark などのオープンソースエンジンを使用して作成するか、BigQuery から直接作成するかにかかわらず、Iceberg データの Cloud Storage 管理機能を拡張するのに役立ちます。これにより、自動クラス階層化や顧客管理の暗号鍵（CMEK）など、Cloud Storage の高度な機能を利用できるようになり、レイクハウスの管理が簡素化されます。Iceberg データの Cloud Storage 管理機能を最大限に活用するには、ベストプラクティスガイドをご覧ください。

読み込んでいます...

基本的な Cloud Storage のインテグレーションに加えて、BigQuery 内の Apache Iceberg 用 BigLake テーブルを利用できます。一般提供が開始されたこれらのテーブルは、オープン形式と、スケーラビリティに優れた BigQuery のリアルタイムメタデータを組み合わせたものです。この強力な組み合わせにより、次のような高度な機能が実現します。

BigQuery の Write API を介してさまざまなソース（Spark、Flink、Dataflow、Pub/Sub、Kafka など）から高スループットのストリーミング取り込みを行い、ゼロレイテンシの読み取りで数十ギガバイト/秒までスケーリング
Vertex AI とのネイティブインテグレーション
圧縮やガベージコレクションなどの自動化されたテーブル管理機能
自動再クラスタリングなどのパフォーマンス最適化
きめ細かい DML とマルチテーブルトランザクション（まもなくプレビュー版を提供予定）

BigQuery ユーザーに馴染みのある、このエンタープライズ対応のフルマネージドテーブルエクスペリエンスにより、Apache Iceberg のオープン性と相互運用性が維持され、両方の長所をいかすことができます。

読み込んでいます...

Google Cloud 全体にわたる AI を活用したガバナンス

BigLake は Dataplex Universal Catalog とネイティブに統合されているため、Dataplex で一元的に定義されたガバナンスポリシーを複数のエンジン間に一貫して適用できます。このインテグレーションは、Cloud Storage への直接アクセスに対するテーブルレベルのアクセス制御をサポートします。BigQuery 内のクエリでは、きめ細かいアクセス制御を自動的に利用できます。オープンソースエンジンでは、Storage API コネクタを使用することでこれが可能です。

アクセス管理に加えて、BigLake の Dataplex とのインテグレーションにより、BigQuery テーブルと Apache Iceberg 用 BigLake テーブル（カスタム Iceberg カタログで作成）の全体的なガバナンスが大幅に強化されます。主な機能は次のとおりです。

包括的なデータの理解: マルチランタイムアーキテクチャ内で、検索、検出、プロファイリング、データ品質チェック、エンドツーエンドのデータリネージをネイティブにサポートします。
AI を活用した探索: Dataplex は、AI を活用したセマンティック検索により、データ探索を簡素化します。さらに、そのナレッジグラフは、BigQuery と Iceberg のデータに対して、AI 生成の分析情報を使用して関連する質問を自動的に提案するため、分析をすぐに開始できます。

重要な点として、Dataplex のエンドツーエンドのガバナンスの利点は、BigLake のネイティブインテグレーションを通じて Iceberg データにシームレスに適用されます。別途登録や有効化の手順は必要ありません。

今後の予定

Google Cloud Next ‘25 では、きめ細かい DML、マルチステートメントトランザクション、変更データキャプチャのサポートにより、高度なデータ処理ユースケース向けに Apache Iceberg レイクハウスを簡素化する方法をデモンストレーションしました。これらの機能はまもなくリリースされ、残りの機能のサポートは今後数か月間にわたって展開される予定です。BigLake の機能の詳細と最新のデモについては、ウェブページをご覧ください。また、Apache Iceberg 用 BigLake テーブルと BigLake Metastore を使ってみるには、こちらのガイドをご覧ください。

-Google、シニアプロダクトマネージャー、Yuriy Zhovtobryukh

-Google、シニアプロダクトマネージャー、Vinod Ramachandran

投稿先

Data Analytics

BigQuery の内部: 列メタデータインデックス（CMETA）の力

執筆者: James Liu • 所要時間: 4 分

Data Analytics

新しい Dataproc マルチテナントクラスタでデータサイエンスを加速

執筆者: Chris Nauroth • 所要時間: 4 分

Data Analytics

BigQuery のソフトフェイルオーバーの導入: 障害復旧テストの制御を強化

執筆者: Larry Henderson • 所要時間: 3 分

Data Analytics

AI で調査を迅速化: Dataproc と Serverless for Apache Spark で使用できる Gemini Cloud Assist

執筆者: Anika Kelhanka • 所要時間: 5 分

進化した BigLake: オープンで高パフォーマンスなエンタープライズ向け Iceberg ネイティブ レイクハウスを構築する

Yuriy Zhovtobryukh

Vinod Ramachandran

Try Gemini 2.5

関連記事

BigQuery の内部: 列メタデータ インデックス（CMETA）の力

新しい Dataproc マルチテナント クラスタでデータ サイエンスを加速

BigQuery のソフト フェイルオーバーの導入: 障害復旧テストの制御を強化

AI で調査を迅速化: Dataproc と Serverless for Apache Spark で使用できる Gemini Cloud Assist

進化した BigLake: オープンで高パフォーマンスなエンタープライズ向け Iceberg ネイティブレイクハウスを構築する

BigQuery の内部: 列メタデータインデックス（CMETA）の力

新しい Dataproc マルチテナントクラスタでデータサイエンスを加速

BigQuery のソフトフェイルオーバーの導入: 障害復旧テストの制御を強化