データ分析

Apache Spark 向け Google Cloud Serverless: 高パフォーマンス、BigQuery と統合

2025年6月19日

Bhooshan Mogal

Product Manager

Abhishek Kashyap

Director, Product Management

Try Gemini Enterprise Business Edition today

The front door to AI in the workplace

Try now

※この投稿は米国時間 2025 年 6 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

Google Cloud は、最も効率、性能、費用対効果に優れたプロダクションレディなエンタープライズ向けサーバーレス Spark を快適にご利用いただけるようにすることに注力しています。これを実現するために、Apache Spark 向け Google Cloud Serverless を導入し、Google Cloud 上の Apache Spark を大幅に進化させたことをお知らせします。

サーバーレス Spark は、BigQuery 環境内でも直接利用できるようになりました。この緊密に統合されたサービスにより、Apache Spark 向け Google Cloud Serverless のすべての機能がデータから AI へのプラットフォームである BigQuery に組み込まれました。これにより、開発者がさまざまな機能を 1 か所で利用できる BigQuery Studio、シームレスな相互運用性、業界をリードする価格 / パフォーマンスを実現します。

Apache Spark 向け Google Cloud Serverless を選ぶ理由

Apache Spark は、データ処理、分析、AI / ML においてよく利用されている高性能なオープンソースエンジンです。しかし、開発者はクラスタの管理、ジョブの最適化、トラブルシューティングの負荷が過大で、ビジネスロジックの構築にあてる貴重な時間が奪われがちでした。

Spark の作業環境を簡素化することで、ユーザーは、インフラストラクチャの管理ではなく、分析情報の抽出に集中できます。Apache Spark 向け Google Cloud Serverless（旧 Dataproc Serverless）は、次の方法でこれらの課題に対処します。

1. オンデマンド Spark で総所有コスト（TCO）を削減:
  - TCO を他のサービスより最大 60% 削減可能。
  - クラスタ管理が不要。インフラストラクチャに気をとられることなく、インタラクティブなワークロード、バッチワークロード、AI ワークロード向けのビジネスロジックを Spark で開発可能。
  - 環境の起動 / 停止に対してではなく、ジョブの実行時間に応じてのみ料金が発生。
  - オンデマンドの Spark 環境であるため、稼働時間が長く、利用率が低いクラスタの維持が不要。
2. 並外れたパフォーマンス:
  - Lightning Engine（プレビュー版）への対応。ベクトル化された実行、インテリジェントキャッシング、最適化されたストレージ I/O を備えた Spark 処理エンジンで、業界ベンチマークでクエリパフォーマンスが最大 3.6 倍向上*。
  - BigQuery、Google Cloud Storage、Spanner コネクタを高度に最適化。
  - Apache Iceberg や Delta Lake などのオープンデータ形式に完全に対応（DDL、DML、スキーマの進化）。
3. オープン性と柔軟性:
  - OSS が既存の Spark コードおよびライブラリと完全に対応。
  - Google Cloud ネイティブ（BigQuery、Spanner、Bigtable）で、オープンソース（Apache Iceberg、Apache Parquet、Delta Lake）のデータ形式に対応。
  - 任意の言語（Python、Java、Scala、R）と開発環境（BigQuery Studio、Vertex AI Workbench、独自の Jupyter または VS Code）を利用可能。
4. あらゆるステップで Gemini を活用した生産性向上とサポート:
  - Gemini ベースの PySpark コード生成による開発者支援（プレビュー版）。
  - トラブルシューティングの推奨事項を提供する Gemini Cloud Assist（プレビュー版）。
5. 簡単に分散できる AI / ML:
  - XGBoost、PyTorch、Transformers などの一般的な ML ライブラリがすべて Google 認定のサーバーレス Spark イメージにあらかじめパッケージ化されているため、生産性の向上と起動時間の短縮が実現し、カスタムイメージ管理による潜在的なセキュリティ問題が軽減。
  - 分散トレーニングと推論ワークロードの GPU アクセラレーション。
6. エンタープライズグレードのセキュリティ機能:
  - VM への SSH アクセスなし。
  - 顧客管理の暗号鍵（CMEK）への対応を含む、デフォルトの暗号化。
  - カスタム組織ポリシー: 企業のガードレールを設定して適用。
  - エンドユーザーの認証情報のおかげで、すべてのデータアクセスのトレーサビリティを確保。
7. プロダクションレディな機能:
  1. ジョブの分離に対応しているため、リソースに対するジョブの競合を回避。
  2. Spark エキスパート向けの Spark ジョブ構成の完全な制御。
  3. オンデマンドの Spark モニタリングがすべてのジョブで利用可能であり、独自の永続履歴サーバー（PHS）の設定が不要。
  4. Apache Airflow / Cloud Composer オペレーターまたは任意のオーケストレーション / スケジューリングツールを使用した簡単なデプロイ。

Spark と BigQuery の統合による利便性

Google は、サーバーレス Spark の機能を基盤として Spark と BigQuery の連携方法を再考し、統合プラットフォーム、ノートブックインターフェース、データの単一のコピーにより、適切なジョブに適切なエンジンを柔軟に利用できるようにしました。

BigQuery でサーバーレス Apache Spark の一般提供が開始されたことで、Apache Spark が BigQuery の統合データプラットフォームに直接組み込まれ、BigQuery Studio で Spark コードをインタラクティブに開発、実行、デプロイできるようになりました。これにより、BigQuery の定評ある SQL エンジンに加えて、スケーラブルな代替の OSS 処理フレームワークが提供されます。

「当社は、お客様に最高の旅行パッケージを最良の価格で提供するために、ML を活用しています。Apache Spark 向け Google Serverless を使用することで、プラットフォームエンジニアは Spark クラスタの構成、最適化、モニタリングにあてる時間を大幅に節約できます。またデータサイエンティストは新しいビジネスロジックの構築など、真に付加価値の高い作業に時間を費やせるようになりました。エンジン間でシームレスに相互運用し、AI / ML ワークフローのために BigQuery、Spark、Vertex AI の機能を使用できます。統合された Spark と BigQuery を開発者が利用し、PyTorch、Tensorflow、Transforms などの一般的な OSS ライブラリに組み込み対応することにより、トイルが大幅に削減され、迅速なイテレーションが可能になります。」- trivago、コンテンツエンジニアリング担当責任者、Andrés Sopeña Pérez 氏

BigQuery での Spark の主な機能と利点

上述の Apache Spark 向け Google Cloud Serverless のすべての機能と利点に加えて、Spark in BigQuery では、以下の緊密な統合も行われています。

開発者が利用する BigQuery Studio における機能統合:
- - BigQuery Studio ノートブックで SQL コードと Spark コードを並べて開発できます。
  - Gemini ベースの PySpark コード生成（プレビュー版）を活用し、データのインテリジェントなコンテキストを使用して、生成されたコードでのハルシネーションを防止します。
  - Spark Connect を使用して、サーバーレス Spark セッションにリモート接続します。
  - Spark の権限はデフォルトの BigQuery ロールと統合されているため、追加の権限を必要とせずに使用を開始できます。
データアクセスの統合とエンジンの相互運用性:

- BigLake metastore を活用することで、Spark と BigQuery は、BigQuery マネージドテーブルでも Apache Iceberg などのオープンフォーマットでも、データの単一のコピーで動作します。エンジンごとに個別のセキュリティポリシーやデータガバナンスモデルを使う必要はなくなりました。Spark で BigLake Metastore を使用するのドキュメントを参照してください。

- さらに、ネイティブ形式と OSS 形式の両方のデータの BigQuery に対するすべてのアクセスは、BigQuery Storage Read API を介して統合されます。Storage API を介したサーバーレス Spark ジョブからの読み取りが追加料金なしでご利用いただけるようになりました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_TH0zPnC.max-1800x1800.jpg

3. 運用化が簡単に:

- BigQuery リポジトリを使用して、チームと共同作業を行い、Git ベースの CI / CD ワークフローに統合できます。
- BigQuery Pipelines とスケジュールを使用して、Spark ジョブを他のビジネスロジックとオーケストレートできます。

機能の統合に加えて、BigQuery の費用ベースの CUD がサーバーレス Spark ジョブのすべての使用量に適用されるようになりました。サーバーレス Spark の料金の詳細については、料金ページをご覧ください。

BigQuery Studio で Spark を使用する方法

始めるのは非常に簡単です。BigQuery Studio 内で、ノートブックのテンプレートのいずれかを使用して Spark セッションをスピンアップできます。

デフォルトの Spark セッションを作成する:

デフォルトの Spark セッションは、次に示すように 1 行のコードで作成できます。

lang-py

読み込んでいます...

Spark セッションのカスタマイズ: セッションをカスタマイズする場合（別の VPC ネットワークやサービスアカウントを使用するなど）、既存のセッションテンプレートを使用するか、構成をインラインで指定することで、セッションの構成を完全に制御できます。Spark セッションの構成、BigQuery からの読み取りと BigQuery への書き込みなどの詳細な手順については、ドキュメントを参照してください。

これで、Spark セッションを使用してビジネスロジックを開発する準備が整いました。

全体像: 統合型オープンデータクラウド

Apache Spark 向け Google Cloud Serverless と BigQuery との新しい緊密なインテグレーションにより、高度な分析エンジン間の障壁が取り除かれ、一貫性のあるマネージド環境内で特定のタスクに最適なツールを選択できるようになります。

Apache Spark 向け Google Cloud Serverless の機能とシンプルさ、そして BigQuery との緊密な新インテグレーションをぜひ体験してください。

どのようなものが構築されるか、楽しみです。今後も Apache Spark 向け Google Cloud Serverless と Google Cloud エコシステム全体でのインテグレーションを強化してまいります。さらなるイノベーションについての続報にご期待ください。

^{* クエリは TPC-H 標準から派生したものであり、TPC-H 標準仕様のすべての要件に準拠していないため、公開されている TPC-H 標準の結果と比較することはできません。}

-プロダクトマネージャー、Bhooshan Mogal
-プロダクトマネジメント担当ディレクター、Abhishek Kashyap

データ分析

Google Cloud のオープンレイクハウス: AI、オープンデータ、比類のないパフォーマンスを実現する設計

Google Cloud のレイクハウスには、BigLake Iceberg ネイティブストレージ、運用エンジンと分析エンジンのインテグレーション、高速な BigQuery SQL など、さまざまな新機能が追加されています。

執筆者: Andi Gutmans • 所要時間: 6 分

https://storage.googleapis.com/gweb-cloudblog-publish/images/09_-_Data_Analytics_tFH57V6.max-900x900.jpg

投稿先

Storage & Data Transfer

Cloud Storage Rapid: AI と分析のための超高速化されたオブジェクトストレージ

執筆者: Marco Abela • 所要時間: 7 分

https://storage.googleapis.com/gweb-cloudblog-publish/images/GCN26_102_BlogHeader_2436x1200_Opt_18_Dark.max-700x700.jpg

Business Intelligence

Looker が実現するエージェント型 BI の時代

執筆者: Sean Zinsmeister • 所要時間: 5 分

Data Analytics

Managed Service for Apache Airflow によるデータと AI のスケーリング

執筆者: Piotr Wieczorek • 所要時間: 4 分

https://storage.googleapis.com/gweb-cloudblog-publish/images/GCN26_102_BlogHeader_2436x1200_Opt_8_Dark.max-700x700.jpg

Partners

Google Cloud と SAP、Agentic Enterprise に向けた青ブループリントを公開

執筆者: Casey McGee • 所要時間: 3 分