コンテンツに移動
データ分析

Google Cloud のオープン レイクハウス: AI、オープンデータ、比類のないパフォーマンスを実現する設計

2025年6月5日
Andi Gutmans

VP/GM, Data Cloud, Google Cloud

Yasmeen Ahmad

Managing Director, Data Cloud, Google Cloud

Try Gemini 2.5

Our most intelligent model is now available on Vertex AI

Try now

※この投稿は米国時間 2025 年 5 月 29 日に、Google Cloud blog に投稿されたものの抄訳です。

Google のデータクラウドは、Google のグローバル規模のインフラストラクチャ上に構築された独自の統一プラットフォームで、AI が組み込まれており、マルチモーダル データに対応したオープン レイクハウス アーキテクチャを特徴としています。すでに Snap Inc. などの組織は、Google のデータクラウドとオープン レイクハウス アーキテクチャにより、データ エンジニアやデータ サイエンティストがデータアセットをより有効に活用できるようになったと評価しています。

「Google Cloud とのパートナーシップは、Snap の次世代オープン レイクハウスを構築し、デベロッパー コミュニティで Spark と Iceberg の普及を推進する取り組みにおいて非常に重要な役割を果たしてきました。」- Snap Inc.、ソフトウェア エンジニアリング担当シニア マネージャー、Zhengyi Liu 氏

このたび、オープン性、インテリジェンス、パフォーマンスの新しい基準を打ち立てる、AI を活用したレイクハウスの一連のイノベーションを発表いたしました。これらのイノベーションには、次のようなものがあります。

  • BigLake Iceberg ネイティブ ストレージ: Google Cloud Storage(GCS)を活用して、企業が大規模に Iceberg データを管理し、相互運用することを実現します。これには、Apache Iceberg 向け BigLake テーブル(一般提供)と新しい REST Catalog API を備えた BigLake Metastore(プレビュー)が含まれます。

  • 運用エンジンと分析エンジンのインテグレーション: BigLake の基盤上に構築することで、分析ワークロード向け BigQuery(一般提供)と AlloyDB for PostgreSQL(プレビュー)を使用して同じ Iceberg オープンデータ基盤でシームレスに相互運用し、運用ニーズに対応できます。

  • BigQuery SQL のパフォーマンス向上: BigQuery の高度なランタイム、低レイテンシのクエリ API、列のメタデータ インデックス処理、きめ細かな更新 / 削除の桁違いの高速化など、自動化された SQL エンジンに関する強化された一連の機能を提供することで、データ処理を大幅に高速化してアジリティを高めます。

  • Apache Spark 向けの高性能 Lightning Engine: 新しい Lightning Engine(プレビュー)は、最適化されたデータコネクタ、効率的な列シャッフル操作、組み込みのキャッシュ保存、ベクトル化された実行を活かして、Apache Spark を強化するように設計されています。

  • Dataplex Universal Catalog: データから AI(BigLake Iceberg、BigQuery、Spanner、Vertex AI モデルなど)へのメタデータを自動的に検出して整理し、BigLake を介した一元的なポリシー適用を可能にするとともに、AI によるキュレーション、データ分析、セマンティック検索をサポートすることで、Google Cloud データ資産全体に AI を活用したインテリジェンスと統合ガバナンスを拡張します。

  • AI ネイティブなノートブックとツール: Gemini を活用したノートブック、PySpark コード生成、JupyterLab と Visual Studio Code のコード拡張機能により、開発作業が向上します。さらに、サードパーティ製ノートブック インターフェースによって機能の強化と統合を実現しました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_2AhedOI.max-1400x1400.png

これらの新たなイノベーションを詳しく見ていきましょう。

BigLake サービスの拡張: オープン、統合型、相互運用可能

Google は Google Cloud Storage を活用し、BigLake を Google のデータクラウド向けの包括的なストレージ ランタイムへと積極的に再構築しています。このアプローチにより、Google ネイティブ ストレージとオープン フォーマットで保存されたデータにまたがる、オープンで高性能なマネージド レイクハウスを構築できます。BigLake の一部として、Apache Iceberg 向け BigLake テーブル(一般提供)を通じて Google Cloud Storage 上で Iceberg に大規模に対応する新しい Iceberg ネイティブ ストレージを発表いたしました。BigLake は Google の Cloud Storage 管理機能をネイティブにサポートし、それを Iceberg データにも拡張します。これにより、ストレージ Autoclass を使用して、より使用頻度の低いストレージ クラスへの効率的なデータ階層化が可能になり、ストレージ バケットに顧客管理の暗号鍵(CMEK)を適用できます。BigLake は Dataplex Universal Catalog でもネイティブにサポートされているため、データ資産全体で一元的なガバナンスを一貫して確実に適用できます。

BigLake の基盤となる新しい BigLake Metastore(一般提供)は、Apache Iceberg REST Catalog API(プレビュー)を備えており、管理とガバナンスを簡素化しながらデータ エコシステム全体で真のオープン性と相互運用性を実現できます。BigLake Metastore は Google のグローバル インフラストラクチャ上に構築されており、サーバーレスかつスケーラブルな統合型のマネージド サービスを提供します。BigQuery、Iceberg ネイティブ ストレージ、セルフマネージド オープン フォーマットにまたがるエンタープライズ メタデータを統合し、分析、運用クエリ、ストリーミング、AI をサポートします。BigLake ソリューションはユニバーサル エンジンの相互運用性を実現し、BigQuery、AlloyDB、Google Cloud Serverless for Apache Spark などのファーストパーティ Google Cloud サービスや、サードパーティ製およびオープンソースのエンジンを含め、BigLake で管理されている Iceberg データに対して一貫して動作するさまざまなクエリエンジンをサポートしています。

さらに、Hadoop / Cloudera からの Iceberg テーブルとメタデータの自動移行(プレビュー)サービスと、ワンクリックでの Delta から Iceberg への移行サービス(プレビュー)など、強化された移行サービスにより、Iceberg ネイティブ ストレージへのデータ移行がこれまで以上に簡単になっています。

分析エンジンと運用エンジンがオープンデータで統合

詳細な分析を行う必要がある場合、BigQuery で Apache Iceberg 向け BigLake テーブルを使用して Iceberg データの読み取りと書き込みができるようになりました。BigQuery は、従来は独自のデータ ウェアハウスに関連付けられていた機能により Iceberg テーブルをさらに強化します。また、BigQuery を使用するとゼロレイテンシ クエリのための高スループット ストリーミング、自動データ再クラスタリングによるテーブル管理の強化、マルチテーブル トランザクション(プレビュー)に対応した高度な ETL ユースケースの構築を実現できます。さらに、BigQuery の組み込み AI 機能(BQML、AI Query Engine、マルチモーダル分析)をオープン データセットで直接活用できます。このインテグレーションにより、ネイティブの Iceberg ストレージに関連するオープン性とデータ所有権のメリットを享受しながら BigQuery の幅広い機能も利用できます。実際、BigQuery と BigLake Iceberg を併用するお客様は 18 か月で 3 倍近くに増加しており、現在では数百ペタバイトを管理しています。

統合されたデータ マネジメントは、分析を超えてビジネス運用の中心にまで拡大しています。Google の高性能な運用データベースである AlloyDB for PostgreSQL では、BigLake が管理する同じ Iceberg データに対してネイティブにクエリを実行できるようになりました。これにより、運用アプリケーションで複雑な ETL なしで BigLake の豊富な機能を活用できるようになり、セマンティック検索や自然言語クエリなどの AlloyDB AI 機能を Iceberg データに適用できます。

Bayer のようなお客様は、AlloyDB と BigQuery を組み合わせてデータクラウドをモダナイズし、膨大な量の観測データを保存、分析しています。Bayer は BigQuery を使用してリアルタイムの分析と知見を生み出し、AlloyDB で運用化することで、以前のソリューションよりも回答率が 50% 増になり、スループットが 5 倍に向上しました。

オープンデータで高性能な BigQuery SQL とサーバーレス Spark を活用

また、すべてのデータを迅速かつインテリジェントに有効化できる、高性能な新しいデータ処理機能も提供します。BigQuery の SQL エンジンは、独自の自動的なパフォーマンス強化機能スイートにより革新を続けています。BigQuery の高度なランタイム(プレビュー)は、強化されたベクトル化と短いクエリ最適化モードによって、ユーザーの操作やコードの変更を必要とせずに分析ワークロードを自動的に高速化できます。これを補完するのが BigQuery API のオプションであるジョブ作成モード(一般提供)です。このモードでは、短期間のインタラクティブ クエリのクエリパスが最適化され、レイテンシが短縮されます。BigQuery 列メタデータ インデックス(CMETA)(一般提供)を使用すると、クエリの効率がさらに向上します。CMETA はシステム管理によるデータ プルーニングをより効率的に行うことで、大規模なテーブルに対するクエリの処理を支援します。その他のアーキテクチャの改善により、BigQuery のきめ細かな更新 / 削除(プレビュー)の処理速度が桁違いに向上し、オープン フォーマットを含む大規模なデータ操作のアジリティが向上しています。

同時に、Apache Spark 向けの新しい Lightning Engine(プレビュー)により、Apache Spark の高速化を実現します。Lightning Engine は、Cloud Storage と BigQuery ストレージ向けに高度に最適化されたデータコネクタ、効率的な列シャッフル操作、インテリジェントな組み込みのキャッシュ メカニズムにより、Apache Spark のパフォーマンスを高速化します。さらに、Lightning Engine はネイティブ C++ ライブラリ(Velox と Gluten)で構築されたベクトル化実行を活用し、Apache Spark 向けに最適化されています。この強力な組み合わせにより、TPC-H のようなベンチマークで 3.6 倍速い Spark パフォーマンスを達成しています。さらに、Google の Spark サービスは AI / ML に対応しており、事前にパッケージ化された AI ライブラリ、最新の ML ランタイム、簡単な GPU サポートを提供しています。これにより、Google Cloud Serverless for Apache Spark サービスまたは Dataproc クラスタ デプロイを通じて利用できる Apache Spark は、Google データクラウドのレイクハウス環境における最高水準の高性能なサービスとしての地位を確立しています。

Dataplex Universal Catalog: Google Cloud 全体で AI を活用したインテリジェンスを実現

効果的な AI 主導のデータ戦略は、あらゆる規模で運用できるインテリジェントでアクティブなユニバーサル カタログの存在にかかっています。この機能は、Dataplex Universal Catalog が、Google のデータクラウド向けに提供しているものであり、分散したデータ資産全体を信頼性の高い、検出可能で実用的なリソースに変換します。

Dataplex Universal Catalog は、分析と運用の環境全体でメタデータを自動的に検出、理解、整理します。ここでは、BigLake ネイティブの Iceberg ストレージ、Cloud Storage 上の Delta や Hudi などのオープン フォーマット、BigQuery の分析データ、Spanner などのデータベースのトランザクション データ、Vertex AI の ML モデルのメタデータなどを包括的に把握でき、Google のデータクラウド全体にわたる広範なガバナンスを示しています。

また、ユーザーがガバナンス ポリシーを一元的に定義し、BigLake を通じて複数のデータエンジンで一貫して適用できるようにすることで、Dataplex Universal Catalog はレイクハウスにとっても不可欠な要素となります。このインテグレーションにより、Google のデータクラウドのすべてのエンジンできめ細かいアクセス制御とガバナンスの強化が実現します。BigLake ソリューションは、クルデンシャル ベンディングをサポートしており、これにより、ユーザーは一元的に定義されたポリシーを Cloud Storage のデータに安全に拡張できます。

Dataplex Universal Catalog は AI を活用し、Gemini 拡張ナレッジグラフを使用してメタデータを動的で実用的なインテリジェンスに変換します。ここでは、AI がメタデータのキュレーションを自動化し、データ要素間の隠れた関係を推論して、複雑なクエリに基づくデータからの分析情報を事前に推奨します。そして、自然言語によるセマンティック検索を可能にします。また、AI を活用した新しいエクスペリエンスや自律型エージェントにも有効です。たとえば、Dataplex Universal Catalog を使用した Gemini 搭載のアシスタント機能では、データセットの識別精度が 50% 向上し、分析情報の取得が大幅に高速化されています。Dataplex Universal Catalog は、Collibra などのプラットフォームへのシームレスなメタデータ連携を可能にするオープンなエコシステムの基盤でもあり、Dataplex Universal Catalog API を通じて幅広い接続性を実現します。

AI ネイティブなノートブックとツールで実務担当者を支援

Google Cloud の目標は、データ実務者が好むツールやワークフローに高度な AI とレイクハウスのインテグレーションを直接埋め込むことで、データ実務者の業務に革新をもたらすことです。このオープンかつ柔軟でインテリジェントな環境に対する取り組みにより、データ サイエンティスト、エンジニア、アナリストの生産性とイノベーションを新たなレベルへと引き上げます。

これを可能にするのが、SQL、Python、Apache Spark にまたがる相互運用可能な統合開発環境を提供する、次世代の AI ネイティブな BigQuery ノートブックです。このような統合開発環境は、深く組み込まれた Gemini のアシスト機能によって強化されています。Gemini はインテリジェントなコラボレーターとして機能し、高度な PySpark コード生成や複雑なコードに対する有益な説明をするほか、サーバーレス Spark のトラブルシューティング向け Cloud Assist Investigations(プレビュー)と直接統合されています。これらにより、Gemini は、開発における摩擦を大幅に軽減して、データから分析情報を得るまでのプロセスを加速します。

さらに、BigQuery、Dataproc、Google Cloud Serverless for Apache Spark(プレビュー)向けの新しい JupyterLab と Visual Studio Code の拡張機能により、開発者は最小限のセットアップで、お気に入りの IDE から直接 Google Cloud のオープン レイクハウス機能に接続できます。開発者は、開発からデプロイまでのエンドツーエンドなプロセスに対応している好みのツールでレイクハウスのすべてのデータセットとファイルにアクセスして、数分以内に開発を開始できます。サーバーレス Spark を使用したノートブックの使用量は、2024 年第 1 四半期から 2025 年第 1 四半期にかけて 4 倍以上に増加しました。

こういったインテグレーションの進歩により、レイクハウス アーキテクチャを基盤とする適応性の高いインテリジェントかつ高性能なデータクラウドを実現し、組織がすべてのデータを Google AI に接続してその可能性を最大限に引き出すことで、AI 時代のイノベーションを定義できるよう支援しています。5 月 29 日に開催されるお客様向けのオンライン イベントにぜひご参加いただき、これらのエキサイティングなイノベーションの詳細をご確認ください。こちらをクリックして詳細を確認し、これらの新機能の早期アクセスにご登録ください。皆様が構築されるソリューションを楽しみにしています。

-Google Cloud、データクラウド担当バイス プレジデント兼ゼネラル マネージャー、Andi Gutmans

-Google Cloud、データクラウド担当マネージング ディレクター、Yasmeen Ahmad 

投稿先