コンテンツに移動
データ分析

Apache Spark 向け Google Cloud Serverless: 高パフォーマンス、BigQuery と統合

2025年6月19日
Bhooshan Mogal

Product Manager

Abhishek Kashyap

Director, Product Management

Try Gemini 2.5

Our most intelligent model is now available on Vertex AI

Try now

※この投稿は米国時間 2025 年 6 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

Google Cloud は、最も効率、性能、費用対効果に優れたプロダクション レディなエンタープライズ向けサーバーレス Spark を快適にご利用いただけるようにすることに注力しています。これを実現するために、Apache Spark 向け Google Cloud Serverless を導入し、Google Cloud 上の Apache Spark を大幅に進化させたことをお知らせします。

サーバーレス Spark は、BigQuery 環境内でも直接利用できるようになりました。この緊密に統合されたサービスにより、Apache Spark 向け Google Cloud Serverless のすべての機能がデータから AI へのプラットフォームである BigQuery に組み込まれました。これにより、開発者がさまざまな機能を 1 か所で利用できる BigQuery Studio、シームレスな相互運用性、業界をリードする価格 / パフォーマンスを実現します。

Apache Spark 向け Google Cloud Serverless を選ぶ理由

Apache Spark は、データ処理、分析、AI / ML においてよく利用されている高性能なオープンソース エンジンです。しかし、開発者はクラスタの管理、ジョブの最適化、トラブルシューティングの負荷が過大で、ビジネス ロジックの構築にあてる貴重な時間が奪われがちでした。

Spark の作業環境を簡素化することで、ユーザーは、インフラストラクチャの管理ではなく、分析情報の抽出に集中できます。Apache Spark 向け Google Cloud Serverless(旧 Dataproc Serverless)は、次の方法でこれらの課題に対処します。

    1. オンデマンド Spark で総所有コスト(TCO)を削減: 

      • TCO を他のサービスより最大 60% 削減可能。

      • クラスタ管理が不要。インフラストラクチャに気をとられることなく、インタラクティブなワークロード、バッチ ワークロード、AI ワークロード向けのビジネス ロジックを Spark で開発可能。

      • 環境の起動 / 停止に対してではなく、ジョブの実行時間に応じてのみ料金が発生。

      • オンデマンドの Spark 環境であるため、稼働時間が長く、利用率が低いクラスタの維持が不要。

    2. 並外れたパフォーマンス: 

      • Lightning Engine(プレビュー版)への対応。ベクトル化された実行、インテリジェント キャッシング、最適化されたストレージ I/O を備えた Spark 処理エンジンで、業界ベンチマークでクエリ パフォーマンスが最大 3.6 倍向上*。

      • BigQueryGoogle Cloud StorageSpanner コネクタを高度に最適化。

      • Apache Iceberg や Delta Lake などのオープンデータ形式に完全に対応(DDL、DML、スキーマの進化)。

    3. オープン性と柔軟性: 

      • OSS が既存の Spark コードおよびライブラリと完全に対応。

      • Google Cloud ネイティブ(BigQuery、Spanner、Bigtable)で、オープンソース(Apache Iceberg、Apache Parquet、Delta Lake)のデータ形式に対応。

      • 任意の言語(Python、Java、Scala、R)と開発環境(BigQuery StudioVertex AI Workbench、独自の Jupyter または VS Code)を利用可能。

    4. あらゆるステップで Gemini を活用した生産性向上とサポート: 

    5. 簡単に分散できる AI / ML: 

      • XGBoost、PyTorch、Transformers などの一般的な ML ライブラリがすべて Google 認定のサーバーレス Spark イメージにあらかじめパッケージ化されているため、生産性の向上と起動時間の短縮が実現し、カスタム イメージ管理による潜在的なセキュリティ問題が軽減。

      • 分散トレーニングと推論ワークロードの GPU アクセラレーション。

    6. エンタープライズ グレードのセキュリティ機能:
      • VM への SSH アクセスなし。

      • 顧客管理の暗号鍵(CMEK)への対応を含む、デフォルトの暗号化。

      • カスタム組織ポリシー: 企業のガードレールを設定して適用。

      • エンドユーザーの認証情報のおかげで、すべてのデータアクセスのトレーサビリティを確保。

    7. プロダクション レディな機能:
      1. ジョブの分離に対応しているため、リソースに対するジョブの競合を回避。

      2. Spark エキスパート向けの Spark ジョブ構成の完全な制御。

      3. オンデマンドの Spark モニタリングがすべてのジョブで利用可能であり、独自の永続履歴サーバー(PHS)の設定が不要。

      4. Apache Airflow / Cloud Composer オペレーターまたは任意のオーケストレーション / スケジューリング ツールを使用した簡単なデプロイ。

    •  

Spark と BigQuery の統合による利便性

Google は、サーバーレス Spark の機能を基盤として Spark と BigQuery の連携方法を再考し、統合プラットフォーム、ノートブック インターフェース、データの単一のコピーにより、適切なジョブに適切なエンジンを柔軟に利用できるようにしました。

BigQuery でサーバーレス Apache Spark の一般提供が開始されたことで、Apache Spark が BigQuery の統合データ プラットフォームに直接組み込まれ、BigQuery Studio で Spark コードをインタラクティブに開発、実行、デプロイできるようになりました。これにより、BigQuery の定評ある SQL エンジンに加えて、スケーラブルな代替の OSS 処理フレームワークが提供されます。

当社は、お客様に最高の旅行パッケージを最良の価格で提供するために、ML を活用しています。Apache Spark 向け Google Serverless を使用することで、プラットフォーム エンジニアは Spark クラスタの構成、最適化、モニタリングにあてる時間を大幅に節約できます。またデータ サイエンティストは新しいビジネス ロジックの構築など、真に付加価値の高い作業に時間を費やせるようになりました。エンジン間でシームレスに相互運用し、AI / ML ワークフローのために BigQuery、Spark、Vertex AI の機能を使用できます。統合された Spark と BigQuery を開発者が利用し、PyTorch、Tensorflow、Transforms などの一般的な OSS ライブラリに組み込み対応することにより、トイルが大幅に削減され、迅速なイテレーションが可能になります。」- trivago、コンテンツ エンジニアリング担当責任者、Andrés Sopeña Pérez 氏

BigQuery での Spark の主な機能と利点

上述の Apache Spark 向け Google Cloud Serverless のすべての機能と利点に加えて、Spark in BigQuery では、以下の緊密な統合も行われています。

  1. 開発者が利用する BigQuery Studio における機能統合:
      • BigQuery Studio ノートブックで SQL コードと Spark コードを並べて開発できます。

      • Gemini ベースの PySpark コード生成(プレビュー版)を活用し、データのインテリジェントなコンテキストを使用して、生成されたコードでのハルシネーションを防止します。

      • Spark Connect を使用して、サーバーレス Spark セッションにリモート接続します。

      • Spark の権限はデフォルトの BigQuery ロールと統合されているため、追加の権限を必要とせずに使用を開始できます。

  2. データアクセスの統合とエンジンの相互運用性:
    • BigLake metastore を活用することで、Spark と BigQuery は、BigQuery マネージド テーブルでも Apache Iceberg などのオープン フォーマットでも、データの単一のコピーで動作します。エンジンごとに個別のセキュリティ ポリシーやデータ ガバナンス モデルを使う必要はなくなりました。Spark で BigLake Metastore を使用するのドキュメントを参照してください。

    • さらに、ネイティブ形式と OSS 形式の両方のデータの BigQuery に対するすべてのアクセスは、BigQuery Storage Read API を介して統合されます。Storage API を介したサーバーレス Spark ジョブからの読み取りが追加料金なしでご利用いただけるようになりました。
https://storage.googleapis.com/gweb-cloudblog-publish/images/1_TH0zPnC.max-1800x1800.jpg

3. 運用化が簡単に:

機能の統合に加えて、BigQuery の費用ベースの CUD がサーバーレス Spark ジョブのすべての使用量に適用されるようになりました。サーバーレス Spark の料金の詳細については、料金ページをご覧ください。

BigQuery Studio で Spark を使用する方法

始めるのは非常に簡単です。BigQuery Studio 内で、ノートブックのテンプレートのいずれかを使用して Spark セッションをスピンアップできます。

デフォルトの Spark セッションを作成する:

デフォルトの Spark セッションは、次に示すように 1 行のコードで作成できます。

lang-py
読み込んでいます...

Spark セッションのカスタマイズ: セッションをカスタマイズする場合(別の VPC ネットワークやサービス アカウントを使用するなど)、既存のセッション テンプレートを使用するか、構成をインラインで指定することで、セッションの構成を完全に制御できます。Spark セッションの構成、BigQuery からの読み取りと BigQuery への書き込みなどの詳細な手順については、ドキュメントを参照してください

これで、Spark セッションを使用してビジネス ロジックを開発する準備が整いました。

全体像: 統合型オープン データクラウド

Apache Spark 向け Google Cloud Serverless と BigQuery との新しい緊密なインテグレーションにより、高度な分析エンジン間の障壁が取り除かれ、一貫性のあるマネージド環境内で特定のタスクに最適なツールを選択できるようになります。

Apache Spark 向け Google Cloud Serverless の機能とシンプルさ、そして BigQuery との緊密な新インテグレーションをぜひ体験してください。

どのようなものが構築されるか、楽しみです。今後も Apache Spark 向け Google Cloud Serverless と Google Cloud エコシステム全体でのインテグレーションを強化してまいります。さらなるイノベーションについての続報にご期待ください。


* クエリは TPC-H 標準から派生したものであり、TPC-H 標準仕様のすべての要件に準拠していないため、公開されている TPC-H 標準の結果と比較することはできません。

-プロダクト マネージャー、Bhooshan Mogal
-プロダクト マネジメント担当ディレクター、Abhishek Kashyap

投稿先