Google Cloud Next Tokyo:7/30、31 東京ビッグサイトにて開催!
データ分析のロゴ

Managed Service for Apache Spark(旧称: Dataproc)

Spark をより簡単に、よりスマートに、より速く

ゼロオペレーションのサーバーレス Spark またはマネージド クラスタで Apache Spark ワークロードを実行できます。エージェント型 AI ワークフローで開発を加速し、Lightning Engine でパフォーマンスを向上させます。

新規のお客様には、Managed Service for Apache Spark や他の Google Cloud プロダクトをお試しいただける無料クレジット $300 分を差し上げます。

Apache Spark は Apache Software Foundation の商標です。

機能

Lightning Engine による業界トップクラスのパフォーマンス

大規模な ETL と SQL ワークロードを、オープンソースの Apache Spark と比較して最大 4.9 倍高速化します。コードの変更は不要です。Lightning Engine は、ネイティブ C++ ベクトル化実行エンジン、インテリジェント キャッシング、最適化されたカラム型シャッフルを利用しています。これをインテリジェントな Spark 自動チューニングと組み合わせることで、手動チューニングの負担をなくし、メモリを最適化して OOM エラーを自動的に防ぐことができます。

*クエリは TPC-DS 標準TPC-H 標準から派生したものです

柔軟なレイクハウスの相互運用性

エンジンの独立性を保証するオープン レイクハウス アーキテクチャを構築します。Apache Iceberg などのオープン形式でデータを Google Cloud Storage から直接処理します。BigQueryKnowledge Catalog(旧 Dataplex)とシームレスに統合して、分析とガバナンスを統合し、変換レイヤなしで真のマルチエンジン相互運用性を確保します。

AI を活用した統合デベロッパー エクスペリエンス

質問に答えるだけでなく、行動するデータエージェントでバックログを解消します。VSCode エージェント拡張機能に組み込まれた Gemini を使用してワークフローを加速し、開発から本番環境までの Spark ワークロードの生産性を向上させます。または、任意の IDE を使用します。データ エンジニアリング エージェントデータ サイエンス エージェントを活用して、データ ラングリングの自動化、自然言語からのパイプラインの構築、PySpark コードの生成を行います。Gemini Cloud Assist を使用して、破損した Spark ジョブを自動的にトラブルシューティングできます。SQL と Spark を単一の統合された AI ファーストのノートブックで組み合わせます。

エンタープライズ AI / ML 対応

ML ライフサイクル全体を構築して運用します。 NVIDIA RAPIDS を利用した GPU サポートと、PyTorch および XGBoost 用の事前構成済み ML ランタイムにより、モデルのトレーニングと推論を加速します。Google Cloud AI エコシステムと統合して、エンドツーエンドの MLOps をオーケストレートし、Gemini Enterprise Agent Platform Model Registry の統合でアセットを管理します。

安全でスケーラブルなシームレスな移行

IAM、VPC Service Controls、Kerberos を使用して、セキュリティ ポスチャーとシームレスに統合できます。Managed Service for Apache Spark のテンプレートとツールを使用して、クラウド ワークロードとレガシー Spark ワークロードを簡単に移行できます。コードのリファクタリングをすぐに行うことなく、Spark 2.x から Spark 4.0 までのサポートでワークロードをリフト&シフトできます。

マルチテナントの効率性と FinOps の管理

リソース使用率を最大化し、アイドル状態のコストを削減します。最大 800 人のユーザーがコンピューティング リソースを共有できるマルチテナント Spark クラスタをデプロイし、データと環境の厳格な分離を維持します。ゼロへのスケーリング機能、秒単位の課金、柔軟なワークロードに対応する Spot VM サポートにより、請求額を管理できます。

オープンで柔軟なエコシステム

ベンダー ロックインを回避します。Apache Spark 向けに最適化されていますが、Google のマネージド クラスタは、Apache Hadoop、Flink、Trino など、30 以上のオープンソース ツールをサポートしています。Managed Service for Apache Airflow などのオーケストレーターとシームレスに統合し、Kubernetes と Docker で拡張して最大限の柔軟性を実現します。

デプロイのオプション

デプロイのオプションワークロードに最適なオプションとして、マネージド クラスタによるきめ細かい制御と、サーバーレス エクスペリエンスによるゼロオペレーションのシンプルさから選択できます。
デプロイモード:概要対象ユーザー:支払い対象:

サーバーレス

サービスとしての Spark ジョブ。

マネージド Spark、マネージド インフラストラクチャ。

新しいパイプライン、インタラクティブ分析、ゼロオペレーションのジョブ単位課金モデルが適したスパイク ワークロード。

ジョブの実行時間

クラスタ

サービスとしての Spark クラスタ。

マネージド Spark、ご利用のインフラストラクチャ。

以前の Spark または OSS ワークロードの移行、永続クラスタの実行、オープンソースの詳細なカスタマイズが必要な場合。

クラスタの稼働時間

デプロイのオプション

ワークロードに最適なオプションとして、マネージド クラスタによるきめ細かい制御と、サーバーレス エクスペリエンスによるゼロオペレーションのシンプルさから選択できます。

サーバーレス

概要

サービスとしての Spark ジョブ。

マネージド Spark、マネージド インフラストラクチャ。

対象ユーザー:

新しいパイプライン、インタラクティブ分析、ゼロオペレーションのジョブ単位課金モデルが適したスパイク ワークロード。

支払い対象:

ジョブの実行時間

クラスタ

概要

サービスとしての Spark クラスタ。

マネージド Spark、ご利用のインフラストラクチャ。

対象ユーザー:

以前の Spark または OSS ワークロードの移行、永続クラスタの実行、オープンソースの詳細なカスタマイズが必要な場合。

支払い対象:

クラスタの稼働時間

仕組み

ゼロオペレーションのサーバーレス実行またはマネージド クラスタで Spark を簡単に利用できます。エージェント型 AI を使用して PySpark 開発を加速し、選択した IDE で Gemini を使用してよりスマートに作業できます。Lightning Engine でジョブを高速化しながら、Knowledge Catalog でオープン レイクハウス全体にわたって統合ガバナンスを維持できます。

一般的な使用例

大規模なデータ エンジニアリング

自動化された ETL パイプライン

オンデマンドで自動的にスケーリングする、堅牢なイベント ドリブン Spark ETL パイプラインを構築します。急増するワークロードにはサーバーレス実行を、永続的なジョブにはマネージド クラスタを活用します。ワークフロー テンプレートを使用すると、本番環境レベルの最も重要なデータ処理ジョブをエンドツーエンドで自動化できます。

データレイク パイプラインの論理設計
データレイク パイプラインの論理設計

自動化された ETL パイプライン

オンデマンドで自動的にスケーリングする、堅牢なイベント ドリブン Spark ETL パイプラインを構築します。急増するワークロードにはサーバーレス実行を、永続的なジョブにはマネージド クラスタを活用します。ワークフロー テンプレートを使用すると、本番環境レベルの最も重要なデータ処理ジョブをエンドツーエンドで自動化できます。

データレイク パイプラインの論理設計
データレイク パイプラインの論理設計

データ サイエンスと ML

インタラクティブなデータ サイエンス

データ サイエンティストがデータを探索し、Spark ML モデルを反復処理できるようにします。VSCode エージェント拡張機能またはお好みの IDE で Gemini を使用して SQL と Spark を統合し、サーバーレス実行を使用して PySpark でデータ探索からモデル構築までをシームレスに移行します。1 つのコマンドで GPU をアタッチ。

Google Cloud データ サイエンス スタックの画像

インタラクティブなデータ サイエンス

データ サイエンティストがデータを探索し、Spark ML モデルを反復処理できるようにします。VSCode エージェント拡張機能またはお好みの IDE で Gemini を使用して SQL と Spark を統合し、サーバーレス実行を使用して PySpark でデータ探索からモデル構築までをシームレスに移行します。1 つのコマンドで GPU をアタッチ。

Google Cloud データ サイエンス スタックの画像

レイクハウスのモダナイゼーション

オープンデータ レイクハウス

Managed Service for Apache Spark を最新のデータ レイクハウスの処理エンジンとして使用します。Apache Iceberg などのオープン形式でデータをデータレイクから直接処理し、データサイロを排除します。BigQuery と Lakehouse for Apache Iceberg を統合して、統合されたマルチエンジン分析プラットフォームを実現します。

Google Cloud 上のオープン レイクハウス スタック

オープンデータ レイクハウス

Managed Service for Apache Spark を最新のデータ レイクハウスの処理エンジンとして使用します。Apache Iceberg などのオープン形式でデータをデータレイクから直接処理し、データサイロを排除します。BigQuery と Lakehouse for Apache Iceberg を統合して、統合されたマルチエンジン分析プラットフォームを実現します。

Google Cloud 上のオープン レイクハウス スタック

料金

Managed Service for Apache Spark の料金の仕組み料金は、選択したデプロイモデルによって異なります。サーバーレスではジョブの実行ごとに課金されますが、クラスタでは基盤となるコンピューティングと稼働時間に対して課金されます。
デプロイモード:課金の対象:お支払い額:

サーバーレス

支払いは従量制です。コンピューティング、GPU、シャッフル ストレージは秒単位で課金されます。ゼロへのスケーリングにより、アイドル状態の容量に対して料金を支払う必要がなくなります。

目安

DCU 時間あたり $0.06

プレミアム ティアとアクセラレータ:

Lightning Engine にアクセスしてパフォーマンスを最大 4.9 倍高速化するか、NVIDIA GPU をアタッチして AI/ML ワークロードを処理できます。

目安

DCU 時間あたり $0.089

サーバーレス プレミアム ティア

クラスタ

クラスタの稼働時間に応じて料金が発生します。基盤となる Compute Engine リソースの料金に加えて、一律の管理手数料が課金されます。Spot VM とゼロスケールを活用して費用を最適化します。

目安

vCPU 時間あたり $0.01

管理料金

Lightning Engine アドオン:

クラスタに画期的なパフォーマンスをもたらします。オープンソースの Spark と比較して最大 4.9 倍高速な実行を実現。

目安

vCPU 時間あたり $0.0025

Managed Service for Apache Spark の料金の詳細を確認します。すべての料金の詳細を見る

Managed Service for Apache Spark の料金の仕組み

料金は、選択したデプロイモデルによって異なります。サーバーレスではジョブの実行ごとに課金されますが、クラスタでは基盤となるコンピューティングと稼働時間に対して課金されます。

サーバーレス

課金の対象:

支払いは従量制です。コンピューティング、GPU、シャッフル ストレージは秒単位で課金されます。ゼロへのスケーリングにより、アイドル状態の容量に対して料金を支払う必要がなくなります。

お支払い額:

Starting at

DCU 時間あたり $0.06

プレミアム ティアとアクセラレータ:

Lightning Engine にアクセスしてパフォーマンスを最大 4.9 倍高速化するか、NVIDIA GPU をアタッチして AI/ML ワークロードを処理できます。

課金の対象:

Starting at

DCU 時間あたり $0.089

サーバーレス プレミアム ティア

クラスタ

課金の対象:

クラスタの稼働時間に応じて料金が発生します。基盤となる Compute Engine リソースの料金に加えて、一律の管理手数料が課金されます。Spot VM とゼロスケールを活用して費用を最適化します。

お支払い額:

Starting at

vCPU 時間あたり $0.01

管理料金

Lightning Engine アドオン:

クラスタに画期的なパフォーマンスをもたらします。オープンソースの Spark と比較して最大 4.9 倍高速な実行を実現。

課金の対象:

Starting at

vCPU 時間あたり $0.0025

Managed Service for Apache Spark の料金の詳細を確認します。すべての料金の詳細を見る

料金計算ツール

リージョン固有の料金と手数料を含む、毎月の費用を試算できます。

カスタムの見積もり

カスタム見積もりをご希望の場合は、Google のセールスチームにお問い合わせください。

概念実証を開始する

新規のお客様向けの $300 相当のクレジット

大規模なプロジェクトを計画していますか?

クラスタの作成

サーバーレス バッチジョブを実行する

適切なデプロイを選択する

ビジネスケース

お客様の成功事例


Dun & Bradstreet のロゴ

「品質チェックの所要時間が 11 時間から数分に短縮されました。」

Dun & Bradstreet 社最高技術責任者 Michael Manos 氏

Google Cloud への移行により、Dun & Bradstreet はデータフローの速度を大幅に向上させ、品質チェック プロセスを数時間から数分に短縮し、新しいデータを公開するまでの時間を半分に短縮しました。この強固なデータ基盤により、Dun & Bradstreet は最先端のデータと AI テクノロジーを含む Google Cloud のエコシステムの力を最大限に活用することもできます。

Managed Service for Apache Spark の違い

柔軟なデプロイ オプションによるゼロオペレーションの生産性。サーバーレス実行またはフルマネージド クラスタを選択して、インフラストラクチャのオーバーヘッドと手動チューニングの負担を排除できます。

エージェント型 AI の開発。VSCode エージェント拡張機能に組み込まれた Gemini や、お好みの IDE とデータ エージェントを使用してワークフローを加速できます。データ エージェントは、PySpark コーディング、データ ラングリング、ジョブのトラブルシューティングを統合ノートブックで自動化します。

業界トップクラスのパフォーマンスを Lightning Engine で実現。最も要求の厳しい ETL およびデータ サイエンスのワークロードを最大 4.9 倍高速化し、総所有コストを大幅に削減


  • Bell Canada
  • Walmart ロゴ
  • Deutsche Telekom ロゴ
  • GNP ロゴ
  • Lowe’s のロゴ
  • TransUnion のロゴ
  • Yahoo ロゴ
  • AppLovin ロゴ
  • Dun & Bradstreet のロゴ
  • Booking.com ロゴ

その他のリソース:

よくある質問

Dataproc とサーバーレス Spark はどうなったのですか?

エクスペリエンスを簡素化するために、Dataproc と Google Cloud Serverless for Apache Spark を 1 つのプロダクト、Managed Service for Apache Spark に統合しました。まったく同じ強力な機能を利用できますが、単一の統合インターフェースから、ゼロオペレーションのサーバーレスまたはフルマネージド クラスタという好みのデプロイモデルを選択するだけです。両方のデプロイモードを詳しく比較する

インフラストラクチャ管理を一切行わずにコードに純粋に集中したい場合は、サーバーレスを選択します。これは、新しいパイプラインやアドホック分析に最適です。マネージド クラスタは、きめ細かな制御が必要な場合、レガシーまたはクラウドの Spark やその他の OSS ワークロードを移行する場合、多様なオープンソース ツールを備えた永続クラスタが必要な場合に選択します。

Lightning Engine は、Google Cloud のネイティブで高度に最適化された実行エンジンです。C++ ライブラリで構築されており、高スループットのストレージ コネクタからインテリジェントなキャッシュ保存まで、あらゆるレイヤを最適化します。標準の Spark より最大 4.9 倍のパフォーマンスを実現し、主要な高速 Spark の代替製品よりも 2 倍の費用対効果を発揮します。また、コードを変更することなく、サーバーレス デプロイやクラスタ デプロイにシームレスに統合できます。

いいえ。AI/ML ワークロードを実行している場合は、事前構成済みの ML ランタイムを使用できます。これらの環境には、PyTorch、XGBoost、scikit-learn などの一般的なライブラリが組み込まれており、最適化された NVIDIA GPU ドライバも付属しているため、複雑なセットアップが不要です。

はい。Google は、100% オープンソース互換の Apache Spark 環境を提供しています。既存の Spark コードを修正せずに実行できるため、ワークロードの完全なポータビリティが確保され、ベンダー ロックインを回避できます。

Gemini AI を任意の IDE に直接組み込んで、AI Co-pilot として使用できます。PySpark コードの作成とデバッグを迅速化するのに役立ちます。また、Gemini Cloud Assist は、失敗したジョブの根本原因分析とトラブルシューティングの推奨事項を自動的に提供します。

そのとおりです。Managed Service for Apache Spark は、Google Cloud のオープン レイクハウスのコア処理エンジンです。Apache Iceberg などのオープン フォーマットのデータを Cloud Storage から直接処理でき、BigQuery や Apache Iceberg 用 Knowledge Catalog とシームレスに統合できます。

現在、スタンダード ティアとプレミアム ティアはサーバーレス デプロイにのみ適用されます。スタンダードは、費用対効果の高い汎用バッチ処理と ETL に最適です。プレミアム ティアは、最も要求の厳しいワークロード向けに設計されており、Lightning Engine を使用してオープンソースの Apache Spark と比較して 4.9 倍のパフォーマンス向上を実現。GPU アクセラレーテッド AI/ML 機能へのアクセスを提供します。

  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud