Iceberg REST カタログが BigLake Metastore で GA サポート開始、オープンデータの相互運用性を実現
Vinod Ramachandran
Senior Product Manager, Google
Pavan Edara
Distinguished Software Engineer, Google
※この投稿は米国時間 2025 年 11 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。
多くの組織はレイクハウス アーキテクチャへの移行により、データを単一コピーとして保持し、移動やコピーを行うことなく、複数のエンジンで多様なワークロードを処理できるようになっています。しかし、データ レイクハウスの管理は複雑になりやすく、運用が難しい場合があります。特に、クエリエンジン間で相互運用できないカスタム パイプラインや、複数のローカルサイロに独立したシステムがある場合は、ガバナンスの確保がさらに困難になります。
レイクハウス アーキテクチャを成功させる方法の一つは、データエンジン全体にメタデータ レイヤを実装することです。BigLake Metastore は、業界標準の Apache Iceberg REST Spec に基づく、Google Cloud のフルマネージドでサーバーレス、スケーラブルなランタイム metastore です。標準 REST インターフェースを提供し、Apache Spark などの OSS エンジンや、BigQuery などの Google Cloud ネイティブ エンジンで幅広い互換性と相互運用性を実現します。このたび、Iceberg REST カタログのサポートが一般提供されるようになりました。
ユーザーは Apache Spark や Trino などのオープンソース エンジンと BigQuery などのネイティブ エンジンを組み合わせ、好みのエンジンでクエリを実行できます。これらはすべて、Google Cloud のエンタープライズ セキュリティで保護されています。たとえば、Spark ユーザーは BigLake Metastore をサーバーレスの Iceberg カタログとして利用し、BigQuery を含む他のエンジンと同じデータのコピーを共有できます。
BigLake Metastore は、クルデンシャル ベンディングなどの主要な認可メカニズムもサポートしています。これにより、ユーザーは基盤となる Google Cloud Storage バケット内のファイルに直接アクセスすることなく、テーブルを利用できます。さらに、Dataplex Universal Catalog との統合により、BigQuery の BigLake Iceberg テーブルに対して、包括的なリネージ、データ品質、検出可能性の機能を含むエンドツーエンドのガバナンスを実現します。BigLake Metastore は、Spanner に基づく Google の地球規模のメタデータ管理インフラストラクチャを活用しているため、metastore のカスタム デプロイを管理する必要はありません。これにより、オープンで柔軟なレイクハウスのメリットと、エンタープライズ グレードのマネージド サービスによるパフォーマンスや相互運用性を両立できます。
Google のデータクラウドでレイクハウスを構築している大手企業は、すでに BigLake Metastore のメリットを実感しています。
「Spotify は、最新のレイクハウス プラットフォームを構築する取り組みの一環として、BigLake と BigLake Metastore を活用しています。オープン フォーマットとオープン API を利用することで、このプラットフォームは、データに対して相互運用可能な抽象化されたストレージ インターフェースを提供します。BigLake により、BigQuery、Dataflow、オープンソースの Iceberg 互換エンジンでデータ処理が可能になります。」- Spotify、プロダクト マネージャー、Ed Byne 氏
データ マネジメントの簡素化とガバナンスの統合
BigLake Metastore では、Iceberg カタログを作成および更新できる新しい UX コンソールを提供しています。このコンソールを使用すると、BigQuery や Spark、Trino などのオープンソースの Iceberg 互換エンジンを含む複数のランタイムにまたがる、Cloud Storage や BigQuery に保存されたすべてのデータにアクセスできます。たとえば、データ エンジニアが Spark で Iceberg テーブルを作成すると、データ アナリストは BigQuery から同じデータにアクセスできます。これにより、BigLake による管理か Cloud Storage 上のセルフマネージドかを問わず、Google Cloud 上のすべての Iceberg テーブルを 1 つのビューで確認できます。


Iceberg REST カタログの使用を開始する
BigLake UX コンソールを使うと、ソース側でカタログを作成する必要がなく、Cloud Storage 上の Iceberg データのカタログをすばやく作成できます。


BigLake Metastore には、次のようなメリットがあります。
-
統合メタデータ: さまざまなエンジン、データ形式、モダリティ間で共有されるランタイム メタデータです。これにより、独自のコネクタやデータのコピーを必要とせず、同じ基盤データを理解して処理できます。その結果、データ エンジニアは複数のエンジンで同じデータを共有でき、主要なユースケースの製品化までの時間を短縮できます。
-
相互運用性のためのオープン API: Iceberg REST カタログを通じてオープンソース エンジンやサードパーティ エンジンとの相互運用性をサポートします。これにより、さまざまなチームが好みの分析ツールで単一の統合データセットを使用できます。
-
幅広いストレージのサポート: Cloud Storage や BigQuery に保存されたデータにまとめてアクセスして処理できます。これにより、データを移動やコピーすることなく最大限活用でき、柔軟なストレージ管理も維持できます。
-
サーバーレス: サーバーレスな NoOps 環境と、あらゆるワークロード サイズに対応可能なスケーラビリティにより TCO を削減します。
-
エンタープライズ向け機能とスケール: Google の地球規模のインフラストラクチャと Spanner を基盤としたメタデータは、データに合わせてスケール可能です。さらに、データとカタログの冗長性を確保するため、Cloud Storage のデュアルリージョン バケットおよびマルチリージョン バケットもサポートされています。
-
AI を活用したガバナンス: BigQuery の BigLake Iceberg テーブルに対して、リネージ、データ品質、検出可能性などの機能を提供します。これらの機能は、Dataplex Universal Catalog と統合されており、エンドツーエンドのガバナンスを実現します。
データ レイクハウスで AI の新たなユースケースを実現
Google のデータクラウドは、Google の広大なインフラストラクチャ上に構築され、AI を活用した AI 対応データ統合プラットフォームを提供します。これにより、構造化データとマルチモーダル データの両方を処理できるオープン レイクハウス アーキテクチャを構築し、新たな AI ユースケースを実現できます。BigLake と BigLake Metastore を使用すると、BigQuery AI 関数を使用して、Iceberg データに対してテキスト生成、テキストや非構造化データの分析、翻訳などの高度な AI 処理を実行できます。これらの関数は、Vertex AI、Cloud AI API、または組み込みの BigQuery モデルを通じて、Gemini やパートナー LLM モデルにアクセスして利用できます。さらに、BigQuery ML を使用すると、線形回帰、k 平均法クラスタリング、時系列予測などの ML モデルを Iceberg データで直接トレーニング、評価、実行できます。
具体的な例で考えてみましょう。あなたは大手小売企業のデータ エンジニアです。あるデータ アナリストが、返品商品のリストを確認するために商品返品テーブルにアクセスしたいと考えています。返品データの一部は、マーケティング チームのデータ サイエンティストが Spark を使用して Iceberg テーブルに挿入します。このとき、Spark は Iceberg テーブルのカタログとして、BigLake Metastore の Iceberg REST カタログを利用します。その後、データ サイエンティストは Iceberg REST カタログを使用して、返品データをすぐに分析できます。BigQuery を使って返品商品を一覧表示し、BigQuery の AI 生成機能で商品を説明して BigQuery ML で返品のロジスティック回帰モデルを作成します。Cloud Storage の FileIO 実装(GCSFileIO)を使用しているため、処理全体が高速です。また、Dataplex Universal Catalog は BigQuery の BigLake Iceberg テーブルに対してガバナンス機能を提供します。
詳細
BigLake Metastore を使用することで、フルマネージドでサーバーレス、かつスケーラブルなランタイム metastore を利用できます。これにより、組織はオープンで相互運用可能なレイクハウスを構築できます。BigLake Metastore と Iceberg REST カタログをぜひお試しください。Apache Iceberg と BigLake を使用して AI 対応のレイクハウスを構築する方法については、最新のレイクハウス ウェブセミナーをオンデマンドでご覧ください。ウェブセミナーでは、このトピックをさらに詳しく説明しています。
-Google、シニア プロダクト マネージャー、Vinod Ramachandran
-Google、上級ソフトウェア エンジニア、Pavan Edara


