2025 年 5 月発表: Dataproc Serverless が Apache Spark 用 Google Cloud Serverless に

Apache Spark 向けの Google Cloud サーバーレス

開発から本番環境まで、Apache Spark の新しい方法

オンデマンド Spark: 迅速な起動、ゼロオペレーション、クエリ パフォーマンスの向上、Gemini の生産性向上。Spark ワークロードの TCO を最大 60% 削減

Apache Spark は Apache Software Foundation の商標です。


機能

オンデマンド Spark: クラスタではなくコードに集中

クラスタ管理の複雑さを解消し、アイドル状態の未使用リソースに対する支払いを回避できます。Apache Spark 用 Google Cloud Serverless は、インタラクティブ、バッチ、AI のワークロードに迅速な VM 起動と動的自動スケーリングを提供します。インフラストラクチャの管理ではなく、機能の構築に時間を費やすことができます。VM の起動と停止には料金は発生しません。

Lightning Engine でパフォーマンスを向上

業界屈指の費用対効果を実感してください。Apache Spark 用 Google Cloud Serverless は、プレビュー版の次世代ネイティブ クエリ エンジンである Lightning Engine を搭載しています。高度なベクトル化された実行、組み込みのインテリジェント キャッシング、最適化されたストレージ I/O により、オープンソースの Apache Spark より 4.3 倍以上高速化**を実現し、Spark のクエリとデータ処理のパフォーマンスが大幅に向上するため、分析情報をより迅速に取得し、費用を削減できます。

** クエリは TPC-DS 標準TPC-H 標準から派生したものであり、TPC-DS 標準TPC-H 標準の仕様のすべての要件に準拠していないため、公開されている TPC-DS 標準TPC-H 標準の結果と比較することはできません。

エンタープライズ対応のセキュリティと構成

本番環境の Spark ワークロードを自信をもって実行できます。Apache Spark 用 Google Cloud Serverless は、リソースを最適化し、ジョブの分離を提供し、Google Cloud のエンタープライズ セキュリティ機能(VPC-SC、CMEK、個人認証、カスタム組織ポリシーなど)をサポートします。セキュアなサブネット、保存データと転送データの暗号化のデフォルト設定、VM またはルートへの直接アクセスの禁止などの機能により、安全な実行環境を実現し、運用上のセキュリティ負担を最小限に抑えます。自動化のために構築されていますが、エキスパート ユーザーは Spark 構成に完全なアクセスを維持してきめ細かい制御を行うことができます。

あらゆるステップで Gemini が生産性を向上

生成 AI を Spark 開発ライフサイクルに組み込みます。データのインテリジェントなコンテキストを備えたノートブックで Gemini によるコンテキスト対応の PySpark コード生成を活用して、生産性を大幅に向上させます。Gemini Cloud Assist Investigate で AI を活用したトラブルシューティングの推奨事項を入手して、問題を迅速に解決し、より深い運用分析情報を取得し、パフォーマンスを最適化します。

容易な分散 AI/ML を実現

分散トレーニングまたはバッチ推論ワークロードをシームレスに実行します。Apache Spark 用 Google Cloud Serverlessは、GPU アクセラレーションの組み込みサポートを提供し、XGBoost、PyTorch、Transformers などの一般的な ML ライブラリが事前パッケージ化されています。これにより、AI/ML 環境の起動時間が大幅に短縮され、画像が Google 認定されているため信頼性が向上します。

オープンで柔軟、相互運用可能

高い柔軟性を維持。Apache Spark 用 Google Cloud Serverless は OSS と完全に互換性があるため、既存の Spark コードとライブラリを変更せずに移行できます。好みの IDE(BigQuery StudioVertex AI Workbench、Jupyter、VSCode)を使用して、好みの言語(Python、Java、Scala、R)で開発し、Apache Airflow/Cloud ComposerBigQuery パイプラインなどのツールでオーケストレートします。Google ネイティブや Apache Iceberg のようなオープンソースなど、あらゆるデータ形式を処理します。

統合された BigQuery エクスペリエンス

BigQuery 内で Apache Spark の機能を直接体験できます。統合された Colab Enterprise ノートブックで、BigLake Metastore による共通メタデータ、共有セキュリティ、Dataplex ユニバーサル カタログによる一貫したガバナンスを活用して、SQL と PySpark コードを記述して実行します。

仕組み

アイデアから本番環境まで、Spark を簡単に使用

一般的な使用例

サーバーレス パイプライン

超高速なサーバーレス ETL/ELT

多様なソースから BigQuery または Google Cloud Storage に大量のデータセットを迅速に取り込み、変換し、読み込むことができます。Lightning Engine の比類のないパフォーマンスと運用上の負担ゼロにより、データ パイプラインを合理化し、分析用の最新データを確保します。

超高速なサーバーレス ETL/ELT

多様なソースから BigQuery または Google Cloud Storage に大量のデータセットを迅速に取り込み、変換し、読み込むことができます。Lightning Engine の比類のないパフォーマンスと運用上の負担ゼロにより、データ パイプラインを合理化し、分析用の最新データを確保します。

インタラクティブなデータ サイエンスと分析

インタラクティブな分析と迅速なプロトタイピング

柔軟性の高い高パフォーマンスなサーバーレス Spark 環境で、データ サイエンティストとアナリストを支援します。アドホックなデータ探索、迅速なプロトタイピング、高度な ML モデルの構築など、Apache Spark 用 Google Cloud Serverless は、必要なスピードとツールを提供します。BigQuery Studio で PySpark と SQL コードを開発して統合エクスペリエンスを実現したり、Jupyter ノートブックや VS Code などのお気に入りのツールから Google Cloud 拡張機能を使用して接続したりできます。Gemini を活用してコードの支援とトラブルシューティングを行い、Lightning Engine でクエリ結果を迅速に取得し、Vertex AI を統合して MLOps を実現します。データの迅速な検出から、GPU とパッケージ済みライブラリを使用した複雑なモデルのトレーニングまで、データ サイエンスのライフサイクル全体を加速します。

インタラクティブな分析と迅速なプロトタイピング

柔軟性の高い高パフォーマンスなサーバーレス Spark 環境で、データ サイエンティストとアナリストを支援します。アドホックなデータ探索、迅速なプロトタイピング、高度な ML モデルの構築など、Apache Spark 用 Google Cloud Serverless は、必要なスピードとツールを提供します。BigQuery Studio で PySpark と SQL コードを開発して統合エクスペリエンスを実現したり、Jupyter ノートブックや VS Code などのお気に入りのツールから Google Cloud 拡張機能を使用して接続したりできます。Gemini を活用してコードの支援とトラブルシューティングを行い、Lightning Engine でクエリ結果を迅速に取得し、Vertex AI を統合して MLOps を実現します。データの迅速な検出から、GPU とパッケージ済みライブラリを使用した複雑なモデルのトレーニングまで、データ サイエンスのライフサイクル全体を加速します。

ソリューションの生成
解決したい問題は何ですか?
What you'll get:
手順ガイド
リファレンス アーキテクチャ
利用可能な事前構築済みソリューション
このサービスは Vertex AI を使用して構築されました。ご利用いただけるのは 18 歳以上のユーザーのみです。機密情報や個人情報は入力しないでください。

料金

透明性の高い価値に基づく料金設定Google Cloud Serverless Spark の料金は、コンピューティング(DCU)、GPU、シャッフル ストレージの 1 秒あたりの使用量に基づきます。
サービスと用途サブスクリプション タイプ 価格(米ドル)

データ コンピューティング単位(DCU)

標準

目安

$0.06

1 時間あたり

プレミアム

目安

$0.089

1 時間あたり

シャッフル ストレージ

標準

目安

$0.04

GB 単位/月

プレミアム

目安

$0.1

GB 単位/月

アクセラレータの料金

a100 40 GB

目安

$3.52069

1 時間あたり

a100 80 GB

目安

$4.713696

1 時間あたり

L4

目安

$0.672048

1 時間あたり

Apache Spark 用 Google Cloud Serverless の料金の詳細を表示します。

透明性の高い価値に基づく料金設定

Google Cloud Serverless Spark の料金は、コンピューティング(DCU)、GPU、シャッフル ストレージの 1 秒あたりの使用量に基づきます。

データ コンピューティング単位(DCU)

サブスクリプション タイプ

標準

価格(米ドル)

Starting at

$0.06

1 時間あたり

プレミアム

サブスクリプション タイプ

Starting at

$0.089

1 時間あたり

シャッフル ストレージ

サブスクリプション タイプ

標準

価格(米ドル)

Starting at

$0.04

GB 単位/月

プレミアム

サブスクリプション タイプ

Starting at

$0.1

GB 単位/月

アクセラレータの料金

サブスクリプション タイプ

a100 40 GB

価格(米ドル)

Starting at

$3.52069

1 時間あたり

a100 80 GB

サブスクリプション タイプ

Starting at

$4.713696

1 時間あたり

L4

サブスクリプション タイプ

Starting at

$0.672048

1 時間あたり

Apache Spark 用 Google Cloud Serverless の料金の詳細を表示します。

料金計算ツール

リージョンごとの毎月の費用を計算する。

カスタムの見積もり

カスタム見積もりをご希望の場合は、Google のセールスチームにお問い合わせください。

今すぐ使ってみる

チュートリアル(入門編)

大規模なプロジェクトがある場合は、

プロダクトの概要

BigQuery コネクタを Apache Spark 用 Google Cloud Serverless とともに使用する

Apache Spark 用 Google Cloud Serverless で GPU を使用する

  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud