
最も要求の厳しい Spark およびオープンソースのワークロードを、マネージド サービスでより簡単に、Gemini でよりスマートに、Lightning Engine でより高速に実行できます。
Apache Spark は Apache Software Foundation の商標です。
機能
Lightning Engine を使用して、最も要求の厳しい Spark ジョブを高速化します。Google の次世代エンジンは、マネージド最適化によりパフォーマンスを 4.3 倍以上高速化し、TCO と手動チューニングを削減します。現在 Dataproc のプレビュー版でご利用いただけます。
Gemini でワークフロー全体を加速させましょう。AI を活用したアシスタンスで PySpark コードの作成とデバッグを行い、Gemini Cloud Assist を使用して、失敗したジョブや実行速度の遅いジョブの根本原因分析を自動化することで、トラブルシューティング時間を大幅に短縮
ML ライフサイクル全体を構築して運用化します。NVIDIA RAPIDS™ を活用した GPU サポートと、事前構成済みの ML ランタイムにより、モデルのトレーニングと推論を加速します。次に、より広範な Google Cloud AI エコシステムと統合して、Vertex AI Pipelines でエンドツーエンドの MLOps をオーケストレートします。
オープンなレイクハウス アーキテクチャにネイティブに接続します。BigQuery から直接データを処理し、Vertex AI Pipelines で MLOps をオーケストレートし、BigLake と Dataplex Universal Catalog でオープンデータのガバナンスを統合します。
Dataproc クラスタをニーズに合わせてカスタマイズできます。Python、Scala、Java で開発し、幅広いマシンタイプから選択し、初期化アクションを使用してカスタム ソフトウェアをインストールし、独自のコンテナ イメージを使用して最大限のポータビリティを実現できます。
ベンダー ロックインを回避します。Dataproc は Apache Spark 向けに最適化されていますが、Apache Hadoop、Flink、Trino、Presto など、30 以上のオープンソース ツールをサポートしています。Airflow などの一般的なオーケストレーターとシームレスに統合され、Kubernetes や Docker で拡張して最大限の柔軟性を実現できます。
セキュリティ ポスチャーとシームレスに統合します。Spark クラスタで、IAM を使用して権限をきめ細かく設定し、VPC Service Controls を使用してネットワーク セキュリティを確保し、Kerberos を使用して強力な認証を実現します。
一般的な使用例
エンタープライズ グレードの信頼性とスケーリングを備えた、複雑で長時間実行される Spark ETL パイプラインを構築してオーケストレーションします。自動スケーリングなどの強力な機能を活用して費用とパフォーマンスを最適化し、ワークフロー テンプレートを使用して、最も重要な本番環境レベルのジョブをエンドツーエンドで自動化および管理します。
エンタープライズ グレードの信頼性とスケーリングを備えた、複雑で長時間実行される Spark ETL パイプラインを構築してオーケストレーションします。自動スケーリングなどの強力な機能を活用して費用とパフォーマンスを最適化し、ワークフロー テンプレートを使用して、最も重要な本番環境レベルのジョブをエンドツーエンドで自動化および管理します。
データ サイエンス チームに、大規模なモデル トレーニングとバッチ推論のための、強力でカスタマイズ可能な Spark クラスタ環境を提供します。事前構成済みの ML ランタイムと GPU サポートにより、ML ライフサイクル全体を加速し、Vertex AI と統合してエンドツーエンドの MLOps パイプラインを構築、運用できます。
データ サイエンス チームに、大規模なモデル トレーニングとバッチ推論のための、強力でカスタマイズ可能な Spark クラスタ環境を提供します。事前構成済みの ML ランタイムと GPU サポートにより、ML ライフサイクル全体を加速し、Vertex AI と統合してエンドツーエンドの MLOps パイプラインを構築、運用できます。
料金
| Dataproc マネージド クラスタ | Dataproc は従量課金制の料金体系です。自動スケーリングとプリエンプティブル VM で費用を最適化します。 |
|---|---|
主要コンポーネント |
|
例 | 4 つの CPU を持つ 6 つのノード(1 つのメイン + 5 つのワーカー)を持つクラスターをそれぞれ 2 時間実行すると、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48 |
Dataproc マネージド クラスタ
Dataproc は従量課金制の料金体系です。自動スケーリングとプリエンプティブル VM で費用を最適化します。
主要コンポーネント
例
4 つの CPU を持つ 6 つのノード(1 つのメイン + 5 つのワーカー)を持つクラスターをそれぞれ 2 時間実行すると、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48
ビジネスケース
Google Dataproc のビジネスケースを構築する
代替ソリューションと比較した Google Cloud Dataproc とサーバーレス Spark の経済的メリット
オンプレミスや他のクラウド ソリューションと比較して、Dataproc がどのように大幅な TCO 削減とビジネス価値を実現しているかをご覧ください。
このレポートの表示内容:
Dataproc と Apache Spark 向け Serverless が、他のクラウドベースの Spark 代替ソリューションと比較して、18%~60% の費用削減を実現できる仕組みをご確認ください。
Apache Spark 向け Google Cloud Serverless が、他のサーバーレス Spark サービスよりも 21%~55% 優れた費用対効果を実現できる仕組みをご確認ください。
Dataproc と Apache Spark 向け Google Cloud Serverless が Spark のデプロイを簡素化し、運用の複雑さを軽減する仕組みについて説明します。
よくある質問
クラスタ環境をきめ細かく制御する必要がある場合、既存の Hadoop/Spark ワークロードを移行する場合、または多様なオープンソース ツールを備えた永続的なクラスタが必要な場合は、Dataproc を選択してください。管理モデル、理想的なワークロード、費用構造の違いの詳細な内訳について。
はい。Dataproc は、最新のオープンソース データスタックのための統合プラットフォームです。30 以上のコンポーネントをサポートしており、ストリーム処理用の Flink やインタラクティブ SQL 用の Trino などのツールの専用クラスタを、すべて単一のマネージド サービスで実行できます。
高いレベルで制御できます。Dataproc では、マシンタイプ、ディスクサイズ、ネットワーク構成をカスタマイズできます。また、初期化アクションを使用して、カスタム ソフトウェアをインストールしたり、独自のコンテナ イメージを導入したり、スポット VM を活用して費用を最適化したりすることもできます。