データ分析

Iceberg REST カタログが BigLake Metastore で GA サポート開始、オープンデータの相互運用性を実現

2025年12月3日

Vinod Ramachandran

Senior Product Manager, Google

Pavan Edara

Distinguished Software Engineer, Google

Try Gemini 3

Our most intelligent model is now available on Vertex AI and Gemini Enterprise

Try now

※この投稿は米国時間 2025 年 11 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。

多くの組織はレイクハウスアーキテクチャへの移行により、データを単一コピーとして保持し、移動やコピーを行うことなく、複数のエンジンで多様なワークロードを処理できるようになっています。しかし、データレイクハウスの管理は複雑になりやすく、運用が難しい場合があります。特に、クエリエンジン間で相互運用できないカスタムパイプラインや、複数のローカルサイロに独立したシステムがある場合は、ガバナンスの確保がさらに困難になります。

レイクハウスアーキテクチャを成功させる方法の一つは、データエンジン全体にメタデータレイヤを実装することです。BigLake Metastore は、業界標準の Apache Iceberg REST Spec に基づく、Google Cloud のフルマネージドでサーバーレス、スケーラブルなランタイム metastore です。標準 REST インターフェースを提供し、Apache Spark などの OSS エンジンや、BigQuery などの Google Cloud ネイティブエンジンで幅広い互換性と相互運用性を実現します。このたび、Iceberg REST カタログのサポートが一般提供されるようになりました。

ユーザーは Apache Spark や Trino などのオープンソースエンジンと BigQuery などのネイティブエンジンを組み合わせ、好みのエンジンでクエリを実行できます。これらはすべて、Google Cloud のエンタープライズセキュリティで保護されています。たとえば、Spark ユーザーは BigLake Metastore をサーバーレスの Iceberg カタログとして利用し、BigQuery を含む他のエンジンと同じデータのコピーを共有できます。

BigLake Metastore は、クルデンシャルベンディングなどの主要な認可メカニズムもサポートしています。これにより、ユーザーは基盤となる Google Cloud Storage バケット内のファイルに直接アクセスすることなく、テーブルを利用できます。さらに、Dataplex Universal Catalog との統合により、BigQuery の BigLake Iceberg テーブルに対して、包括的なリネージ、データ品質、検出可能性の機能を含むエンドツーエンドのガバナンスを実現します。BigLake Metastore は、Spanner に基づく Google の地球規模のメタデータ管理インフラストラクチャを活用しているため、metastore のカスタムデプロイを管理する必要はありません。これにより、オープンで柔軟なレイクハウスのメリットと、エンタープライズグレードのマネージドサービスによるパフォーマンスや相互運用性を両立できます。

Google のデータクラウドでレイクハウスを構築している大手企業は、すでに BigLake Metastore のメリットを実感しています。

「Spotify は、最新のレイクハウスプラットフォームを構築する取り組みの一環として、BigLake と BigLake Metastore を活用しています。オープンフォーマットとオープン API を利用することで、このプラットフォームは、データに対して相互運用可能な抽象化されたストレージインターフェースを提供します。BigLake により、BigQuery、Dataflow、オープンソースの Iceberg 互換エンジンでデータ処理が可能になります。」- Spotify、プロダクトマネージャー、Ed Byne 氏

データマネジメントの簡素化とガバナンスの統合

BigLake Metastore では、Iceberg カタログを作成および更新できる新しい UX コンソールを提供しています。このコンソールを使用すると、BigQuery や Spark、Trino などのオープンソースの Iceberg 互換エンジンを含む複数のランタイムにまたがる、Cloud Storage や BigQuery に保存されたすべてのデータにアクセスできます。たとえば、データエンジニアが Spark で Iceberg テーブルを作成すると、データアナリストは BigQuery から同じデータにアクセスできます。これにより、BigLake による管理か Cloud Storage 上のセルフマネージドかを問わず、Google Cloud 上のすべての Iceberg テーブルを 1 つのビューで確認できます。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/1_bLcuC8l.gif

Iceberg REST カタログの使用を開始する

BigLake UX コンソールを使うと、ソース側でカタログを作成する必要がなく、Cloud Storage 上の Iceberg データのカタログをすばやく作成できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_S6gymKH.max-1000x1000.png

BigLake Metastore には、次のようなメリットがあります。

統合メタデータ: さまざまなエンジン、データ形式、モダリティ間で共有されるランタイムメタデータです。これにより、独自のコネクタやデータのコピーを必要とせず、同じ基盤データを理解して処理できます。その結果、データエンジニアは複数のエンジンで同じデータを共有でき、主要なユースケースの製品化までの時間を短縮できます。
相互運用性のためのオープン API: Iceberg REST カタログを通じてオープンソースエンジンやサードパーティエンジンとの相互運用性をサポートします。これにより、さまざまなチームが好みの分析ツールで単一の統合データセットを使用できます。
幅広いストレージのサポート: Cloud Storage や BigQuery に保存されたデータにまとめてアクセスして処理できます。これにより、データを移動やコピーすることなく最大限活用でき、柔軟なストレージ管理も維持できます。
サーバーレス: サーバーレスな NoOps 環境と、あらゆるワークロードサイズに対応可能なスケーラビリティにより TCO を削減します。
エンタープライズ向け機能とスケール: Google の地球規模のインフラストラクチャと Spanner を基盤としたメタデータは、データに合わせてスケール可能です。さらに、データとカタログの冗長性を確保するため、Cloud Storage のデュアルリージョンバケットおよびマルチリージョンバケットもサポートされています。
AI を活用したガバナンス: BigQuery の BigLake Iceberg テーブルに対して、リネージ、データ品質、検出可能性などの機能を提供します。これらの機能は、Dataplex Universal Catalog と統合されており、エンドツーエンドのガバナンスを実現します。

データレイクハウスで AI の新たなユースケースを実現

Google のデータクラウドは、Google の広大なインフラストラクチャ上に構築され、AI を活用した AI 対応データ統合プラットフォームを提供します。これにより、構造化データとマルチモーダルデータの両方を処理できるオープンレイクハウスアーキテクチャを構築し、新たな AI ユースケースを実現できます。BigLake と BigLake Metastore を使用すると、BigQuery AI 関数を使用して、Iceberg データに対してテキスト生成、テキストや非構造化データの分析、翻訳などの高度な AI 処理を実行できます。これらの関数は、Vertex AI、Cloud AI API、または組み込みの BigQuery モデルを通じて、Gemini やパートナー LLM モデルにアクセスして利用できます。さらに、BigQuery ML を使用すると、線形回帰、k 平均法クラスタリング、時系列予測などの ML モデルを Iceberg データで直接トレーニング、評価、実行できます。

具体的な例で考えてみましょう。あなたは大手小売企業のデータエンジニアです。あるデータアナリストが、返品商品のリストを確認するために商品返品テーブルにアクセスしたいと考えています。返品データの一部は、マーケティングチームのデータサイエンティストが Spark を使用して Iceberg テーブルに挿入します。このとき、Spark は Iceberg テーブルのカタログとして、BigLake Metastore の Iceberg REST カタログを利用します。その後、データサイエンティストは Iceberg REST カタログを使用して、返品データをすぐに分析できます。BigQuery を使って返品商品を一覧表示し、BigQuery の AI 生成機能で商品を説明して BigQuery ML で返品のロジスティック回帰モデルを作成します。Cloud Storage の FileIO 実装（GCSFileIO）を使用しているため、処理全体が高速です。また、Dataplex Universal Catalog は BigQuery の BigLake Iceberg テーブルに対してガバナンス機能を提供します。

詳細

BigLake Metastore を使用することで、フルマネージドでサーバーレス、かつスケーラブルなランタイム metastore を利用できます。これにより、組織はオープンで相互運用可能なレイクハウスを構築できます。BigLake Metastore と Iceberg REST カタログをぜひお試しください。Apache Iceberg と BigLake を使用して AI 対応のレイクハウスを構築する方法については、最新のレイクハウスウェブセミナーをオンデマンドでご覧ください。ウェブセミナーでは、このトピックをさらに詳しく説明しています。

-Google、シニアプロダクトマネージャー、Vinod Ramachandran
-Google、上級ソフトウェアエンジニア、Pavan Edara

投稿先