進化した BigLake: オープンで高パフォーマンスなエンタープライズ向け Iceberg ネイティブ レイクハウスを構築する
Yuriy Zhovtobryukh
Senior Product Manager, Google
Vinod Ramachandran
Senior Product Manager, Google
※この投稿は米国時間 2025 年 5 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。
データ マネジメントは変化を続けています。企業は、複数のエンジンが 1 つのデータコピーで動作できる、柔軟かつオープンで相互運用可能なアーキテクチャを必要としています。Apache Iceberg は優れたオープン テーブル形式として登場しましたが、実際のデプロイでは、Apache Iceberg のオープン性を受け入れる一方でエンタープライズ グレードのフルマネージド ストレージ管理において妥協するか、マネージド ストレージを選択する代わりにオープン形式の柔軟性を犠牲にするか、というジレンマに直面するお客様がよく見られます。
このたび、Google は BigLake のイノベーションを発表しました。BigLake は、Google Cloud でオープンなデータ レイクハウスを構築するための基盤となるストレージ エンジンであり、Google のインフラストラクチャのメリットを Apache Iceberg にもたらし、オープン形式の柔軟性とエンタープライズ グレードの高パフォーマンス マネージド ストレージとのトレードオフを解消するものです。今回のイノベーションの内容は次のとおりです。
-
分析システムとトランザクション システムのオープンな相互運用性: 以前は BigQuery metastore と呼ばれていた、フルマネージド、サーバーレス、スケーラブルな BigLake Metastore の一般提供を開始いたしました。これは、ランタイムのメタデータ管理を簡素化し、BigQuery と他の Iceberg 互換エンジンにわたり機能するものです。Google の地球規模のメタデータ管理インフラストラクチャを活用しているため、metastore のカスタム デプロイを管理する必要がなくなります。さらに、Iceberg REST Catalog API(プレビュー版)のサポートも導入されます。BigLake Metastore は相互運用性の基盤を提供し、BigQuery、AlloyDB(プレビュー版)、Iceberg 互換のオープンソース エンジン(Spark や Flink など)を含む複数のランタイムにわたって Cloud Storage と BigQuery のすべてのストレージ データにアクセスすることを可能にします。
-
新しい高パフォーマンスの Iceberg ネイティブ Cloud Storage: テーブル メンテナンス(圧縮とガベージ コレクションを含む)の自動化や、Google Cloud Storage 管理ツール(自動クラス階層化や暗号化を含む)とのインテグレーションにより、レイクハウスの管理を簡素化します。BigQuery 内の Apache Iceberg 用 BigLake テーブルの一般提供を通じて、オープン形式と BigQuery のスケーラビリティに優れたリアルタイム メタデータを組み合わせることで、レイクハウスが強化されます。これにより、高スループット ストリーミング、自動再クラスタリング、マルチテーブル トランザクション(近日提供開始予定)、Vertex AI とのネイティブ インテグレーションが可能になり、レイクハウスで Google Cloud AI の機能を活用できるようになります。
-
Google Cloud 全体にわたる AI を活用したガバナンス: BigLake におけるこれらの更新は、Dataplex Universal Catalog によってネイティブにサポートされているため、サポートされているすべてのエンジンにわたって統合されたきめ細かいアクセス制御を提供し、包括的なリネージ、データ品質、検出可能性の機能を含むエンドツーエンドのガバナンスを実現します。
これらの変更により、BigLake は、オープンで高パフォーマンスなエンタープライズ グレードのレイクハウスを Google Cloud 上で構築できるように設計された包括的なストレージ エンジンへと進化しました。構築の際には、Google Cloud のサービスや、オープンソースとサードパーティの Iceberg 互換エンジンを使用できます。このため、オープン ソリューションとマネージド ソリューションのトレードオフが解消され、データと AI のイノベーションが加速します。
「組織全体のチームが、データの保存場所や使用しているツールに関係なく、一貫性のある安全な方法でデータにアクセスできるようにしたいと考えました。Google の BigLake は自然な選択でした。BigQuery を介して、データにアクセスするための統合レイヤと、エンタープライズ機能によるフルマネージド エクスペリエンスが提供されます。Apache Iceberg のようなオープン テーブル形式でも、従来のテーブルでも、データを移動または複製する必要はありません。生成 AI の潜在的なユースケースを探求し続けるためには、メタデータの品質が非常に重要です。当社は、BigLake Metastore と Data Catalog を利用して、高品質のメタデータを維持しています。」- CME Group、エグゼクティブ ディレクター、Zenul Pomal 氏


オープンで相互運用が可能
BigLake Metastore は、BigLake の相互運用性の中核をなすものであり、Cloud Storage と BigQuery ストレージの間でデータを接続するための 2 つの主要なカタログ インターフェースを提供します。
-
Iceberg REST カタログ(プレビュー版)は、より広範な互換性のために標準 REST インターフェースを提供します。これにより、たとえば Spark ユーザーは、BigLake Metastore をサーバーレスの Iceberg カタログとして利用できます。
-
カスタム Iceberg カタログ(一般提供中)を使用すると、Spark やその他のオープンソース エンジンが Apache Iceberg 用 BigLake テーブルを操作し、BigQuery と相互運用できるようになります。その実装は一般公開の Iceberg ライブラリと直接統合されているため、追加の JAR ファイルは必要ありません。
BigQuery 内で作成された Apache Iceberg 用 BigLake テーブルに対しては、ネイティブの Apache Iceberg ライブラリを使用して、オープンソース エンジンやサードパーティ エンジンからクエリを実行できます。これを可能にするため、BigLake は Apache Iceberg V2 仕様に準拠したメタデータ スナップショットを自動的に生成します。このスナップショットは BigLake Metastore に登録され、その結果、オープンソース エンジンがカスタム Iceberg カタログ インテグレーションを通じてデータをクエリできます。重要な点として、これらのメタデータ スナップショットは、テーブル変更(DML オペレーション、データ読み込み、ストリーミング更新、最適化など)が発生すると必ず自動的に更新されて最新の状態が維持されるため、外部エンジンは常に最新のデータを使用することになります。
この強化された相互運用性の重要な側面は、分析ワークロードとトランザクション ワークロードを橋渡しすることです。これは AlloyDB ユーザーにとって特に強力な機能です。現在では、Apache Iceberg の分析用 BigLake テーブルを AlloyDB(プレビュー版)内で直接シームレスに使用できるようになりました。これにより、PostgreSQL ユーザーは、この豊富な分析データを AlloyDB の最新のトランザクション データと組み合わせることができるようになり、セマンティック検索、自然言語インターフェース、統合 AI クエリエンジンなどの高度な AlloyDB 機能を活用することで、AI を活用したアプリケーションとリアルタイムの運用ユースケースを強化できます。BigQuery、AlloyDB、オープンソース エンジンにまたがるこの統合アプローチにより、プラットフォームにおける Iceberg データの価値を最大限に引き出すことができます。
新しい高パフォーマンスの Iceberg ネイティブ ストレージ
Apache Iceberg 用 BigLake テーブルは、Cloud Storage 上で直接 Iceberg ネイティブのストレージ エクスペリエンスを実現します。これらのテーブルは、Spark などのオープンソース エンジンを使用して作成するか、BigQuery から直接作成するかにかかわらず、Iceberg データの Cloud Storage 管理機能を拡張するのに役立ちます。これにより、自動クラス階層化や顧客管理の暗号鍵(CMEK)など、Cloud Storage の高度な機能を利用できるようになり、レイクハウスの管理が簡素化されます。Iceberg データの Cloud Storage 管理機能を最大限に活用するには、ベスト プラクティス ガイドをご覧ください。
基本的な Cloud Storage のインテグレーションに加えて、BigQuery 内の Apache Iceberg 用 BigLake テーブルを利用できます。一般提供が開始されたこれらのテーブルは、オープン形式と、スケーラビリティに優れた BigQuery のリアルタイム メタデータを組み合わせたものです。この強力な組み合わせにより、次のような高度な機能が実現します。
-
BigQuery の Write API を介してさまざまなソース(Spark、Flink、Dataflow、Pub/Sub、Kafka など)から高スループットのストリーミング取り込みを行い、ゼロレイテンシの読み取りで数十ギガバイト/秒までスケーリング
-
Vertex AI とのネイティブ インテグレーション
-
圧縮やガベージ コレクションなどの自動化されたテーブル管理機能
-
自動再クラスタリングなどのパフォーマンス最適化
-
きめ細かい DML とマルチテーブル トランザクション(まもなくプレビュー版を提供予定)
BigQuery ユーザーに馴染みのある、このエンタープライズ対応のフルマネージド テーブル エクスペリエンスにより、Apache Iceberg のオープン性と相互運用性が維持され、両方の長所をいかすことができます。
Google Cloud 全体にわたる AI を活用したガバナンス
BigLake は Dataplex Universal Catalog とネイティブに統合されているため、Dataplex で一元的に定義されたガバナンス ポリシーを複数のエンジン間に一貫して適用できます。このインテグレーションは、Cloud Storage への直接アクセスに対するテーブルレベルのアクセス制御をサポートします。BigQuery 内のクエリでは、きめ細かいアクセス制御を自動的に利用できます。オープンソース エンジンでは、Storage API コネクタを使用することでこれが可能です。
アクセス管理に加えて、BigLake の Dataplex とのインテグレーションにより、BigQuery テーブルと Apache Iceberg 用 BigLake テーブル(カスタム Iceberg カタログで作成)の全体的なガバナンスが大幅に強化されます。主な機能は次のとおりです。
-
包括的なデータの理解: マルチランタイム アーキテクチャ内で、検索、検出、プロファイリング、データ品質チェック、エンドツーエンドのデータリネージをネイティブにサポートします。
-
AI を活用した探索: Dataplex は、AI を活用したセマンティック検索により、データ探索を簡素化します。さらに、そのナレッジグラフは、BigQuery と Iceberg のデータに対して、AI 生成の分析情報を使用して関連する質問を自動的に提案するため、分析をすぐに開始できます。
重要な点として、Dataplex のエンドツーエンドのガバナンスの利点は、BigLake のネイティブ インテグレーションを通じて Iceberg データにシームレスに適用されます。別途登録や有効化の手順は必要ありません。
今後の予定
Google Cloud Next ‘25 では、きめ細かい DML、マルチステートメント トランザクション、変更データ キャプチャのサポートにより、高度なデータ処理ユースケース向けに Apache Iceberg レイクハウスを簡素化する方法をデモンストレーションしました。これらの機能はまもなくリリースされ、残りの機能のサポートは今後数か月間にわたって展開される予定です。BigLake の機能の詳細と最新のデモについては、ウェブページをご覧ください。また、Apache Iceberg 用 BigLake テーブルと BigLake Metastore を使ってみるには、こちらのガイドをご覧ください。
-Google、シニア プロダクト マネージャー、Yuriy Zhovtobryukh
-Google、シニア プロダクト マネージャー、Vinod Ramachandran