Dataproc ロゴ

Dataproc

Google Dataproc によるマネージド Apache Spark と Hadoop

最も要求の厳しい Spark およびオープンソースのワークロードを、マネージド サービスでより簡単に、Gemini でよりスマートに、Lightning Engine でより高速に実行できます。

Apache Spark は Apache Software Foundation の商標です。

機能

業界トップクラスのパフォーマンス

Lightning Engine を使用して、最も要求の厳しい Spark ジョブを高速化します。Google の次世代エンジンは、マネージド最適化によりパフォーマンスを 4.3 倍以上高速化し、TCO と手動チューニングを削減します。現在 Dataproc のプレビュー版でご利用いただけます。

AI を活用した開発と運用

Gemini でワークフロー全体を加速させましょう。AI を活用したアシスタンスで PySpark コードの作成とデバッグを行い、Gemini Cloud Assist を使用して、失敗したジョブや実行速度の遅いジョブの根本原因分析を自動化することで、トラブルシューティング時間を大幅に短縮

エンタープライズ AI/ML に対応

ML ライフサイクル全体を構築して運用化します。NVIDIA RAPIDS™ を活用した GPU サポートと、事前構成済みの ML ランタイムにより、モデルのトレーニングと推論を加速します。次に、より広範な Google Cloud AI エコシステムと統合して、Vertex AI Pipelines でエンドツーエンドの MLOps をオーケストレートします。

強力なレイクハウス統合

オープンなレイクハウス アーキテクチャにネイティブに接続します。BigQuery から直接データを処理し、Vertex AI Pipelines で MLOps をオーケストレートし、BigLakeDataplex Universal Catalog でオープンデータのガバナンスを統合します。

比類のない制御とカスタマイズ

Dataproc クラスタをニーズに合わせてカスタマイズできます。Python、Scala、Java で開発し、幅広いマシンタイプから選択し、初期化アクションを使用してカスタム ソフトウェアをインストールし、独自のコンテナ イメージを使用して最大限のポータビリティを実現できます。

最新のオープンソース データスタック向けに構築

ベンダー ロックインを回避します。Dataproc は Apache Spark 向けに最適化されていますが、Apache Hadoop、Flink、Trino、Presto など、30 以上のオープンソース ツールをサポートしています。Airflow などの一般的なオーケストレーターとシームレスに統合され、Kubernetes や Docker で拡張して最大限の柔軟性を実現できます。

エンタープライズ クラスのセキュリティ

セキュリティ ポスチャーとシームレスに統合します。Spark クラスタで、IAM を使用して権限をきめ細かく設定し、VPC Service Controls を使用してネットワーク セキュリティを確保し、Kerberos を使用して強力な認証を実現します。

仕組み

カスタム クラスタを構成し、Spark ジョブを送信して BigQuery と Cloud Storage からデータを処理します。統合されたモニタリング、セキュリティでパフォーマンスとガバナンスを管理します。

一般的な使用例

クラウドへの移行

オンプレミスの Apache Hadoop ワークロードと Spark ワークロードをシームレスにリフト&シフトできます。また、セルフマネージドの「DIY Spark」からフルマネージド サービスに移行する理想的な方法でもあります。Dataproc は、従来の 2.x を含む幅広い Spark バージョンをサポートしているため、コードをすぐにリファクタリングする必要性が減り、移行が簡素化されます。これにより、チームが既存のオープンソース スキルを活用して、クラウドへの移行を迅速に進めることができます。

    クラウドへの移行

    オンプレミスの Apache Hadoop ワークロードと Spark ワークロードをシームレスにリフト&シフトできます。また、セルフマネージドの「DIY Spark」からフルマネージド サービスに移行する理想的な方法でもあります。Dataproc は、従来の 2.x を含む幅広い Spark バージョンをサポートしているため、コードをすぐにリファクタリングする必要性が減り、移行が簡素化されます。これにより、チームが既存のオープンソース スキルを活用して、クラウドへの移行を迅速に進めることができます。

      レイクハウスのモダナイゼーション

      Dataproc を、最新のデータ レイクハウスの強力なオープンソース処理エンジンとして使用します。Apache Iceberg などのオープン形式でデータをデータレイクから直接処理し、データサイロや費用のかかるデータ移動を排除します。BigQuery および Dataplex Universal Catalog とシームレスに統合して、真に統合されたマルチエンジン分析とガバナンス プラットフォームを実現します。

        レイクハウスのモダナイゼーション

        Dataproc を、最新のデータ レイクハウスの強力なオープンソース処理エンジンとして使用します。Apache Iceberg などのオープン形式でデータをデータレイクから直接処理し、データサイロや費用のかかるデータ移動を排除します。BigQuery および Dataplex Universal Catalog とシームレスに統合して、真に統合されたマルチエンジン分析とガバナンス プラットフォームを実現します。

          データ エンジニアリング

          エンタープライズ グレードの信頼性とスケーリングを備えた、複雑で長時間実行される Spark ETL パイプラインを構築してオーケストレーションします。自動スケーリングなどの強力な機能を活用して費用とパフォーマンスを最適化し、ワークフロー テンプレートを使用して、最も重要な本番環境レベルのジョブをエンドツーエンドで自動化および管理します。

          スナップ引用

          データ エンジニアリング

          エンタープライズ グレードの信頼性とスケーリングを備えた、複雑で長時間実行される Spark ETL パイプラインを構築してオーケストレーションします。自動スケーリングなどの強力な機能を活用して費用とパフォーマンスを最適化し、ワークフロー テンプレートを使用して、最も重要な本番環境レベルのジョブをエンドツーエンドで自動化および管理します。

          スナップ引用

          大規模なデータ サイエンス

          データ サイエンス チームに、大規模なモデル トレーニングとバッチ推論のための、強力でカスタマイズ可能な Spark クラスタ環境を提供します。事前構成済みの ML ランタイムと GPU サポートにより、ML ライフサイクル全体を加速し、Vertex AI と統合してエンドツーエンドの MLOps パイプラインを構築、運用できます。

          Spark ノートブックのハイライト

          大規模なデータ サイエンス

          データ サイエンス チームに、大規模なモデル トレーニングとバッチ推論のための、強力でカスタマイズ可能な Spark クラスタ環境を提供します。事前構成済みの ML ランタイムと GPU サポートにより、ML ライフサイクル全体を加速し、Vertex AI と統合してエンドツーエンドの MLOps パイプラインを構築、運用できます。

          Spark ノートブックのハイライト

          柔軟な OSS 分析エンジン

          運用上のオーバーヘッドを増やすことなく、Spark と Hadoop を超える機能を利用できます。インタラクティブ SQL 用の Trino、高度なストリーム処理用の Flink、その他の特殊なオープンソース エンジンを使用して、専用クラスタをデプロイします。Dataproc は、マネージド サービスのシンプルさで、この多様なエコシステムを管理するための統合コントロール プレーンを提供します。

          OSS サポート

            柔軟な OSS 分析エンジン

            運用上のオーバーヘッドを増やすことなく、Spark と Hadoop を超える機能を利用できます。インタラクティブ SQL 用の Trino、高度なストリーム処理用の Flink、その他の特殊なオープンソース エンジンを使用して、専用クラスタをデプロイします。Dataproc は、マネージド サービスのシンプルさで、この多様なエコシステムを管理するための統合コントロール プレーンを提供します。

            OSS サポート

              料金

              Dataproc マネージド クラスタDataproc は従量課金制の料金体系です。自動スケーリングとプリエンプティブル VM で費用を最適化します。

              主要コンポーネント

              • Compute Engine インスタンス(vCPU、メモリ)
              • Dataproc サービス料金(vCPU 時間あたり)
              • 永続ディスク


              4 つの CPU を持つ 6 つのノード(1 つのメイン + 5 つのワーカー)を持つクラスターをそれぞれ 2 時間実行すると、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48

              Dataproc マネージド クラスタ

              Dataproc は従量課金制の料金体系です。自動スケーリングとプリエンプティブル VM で費用を最適化します。

              主要コンポーネント

              • Compute Engine インスタンス(vCPU、メモリ)
              • Dataproc サービス料金(vCPU 時間あたり)
              • 永続ディスク


              4 つの CPU を持つ 6 つのノード(1 つのメイン + 5 つのワーカー)を持つクラスターをそれぞれ 2 時間実行すると、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48

              料金計算ツール

              リージョン固有の料金と手数料を含む、Dataproc の毎月の費用を試算する

              カスタムの見積もり

              カスタム見積もりをご希望の場合は、Google のセールスチームにお問い合わせください。

              概念実証を開始する

              新規のお客様向けの $300 相当のクレジット

              大規模なプロジェクトを計画していますか?

              テンプレートを使用して Spark ジョブを送信する

              チュートリアル: Dataproc Spark から BigQuery コネクタ

              詳細については、Dataproc のドキュメントをご覧ください

              ビジネスケース

              Google Dataproc のビジネスケースを構築する


              代替ソリューションと比較した Google Cloud Dataproc とサーバーレス Spark の経済的メリット

              オンプレミスや他のクラウド ソリューションと比較して、Dataproc がどのように大幅な TCO 削減とビジネス価値を実現しているかをご覧ください。

              このレポートの表示内容:

              Dataproc と Apache Spark 向け Serverless が、他のクラウドベースの Spark 代替ソリューションと比較して、18%~60% の費用削減を実現できる仕組みをご確認ください。

              Apache Spark 向け Google Cloud Serverless が、他のサーバーレス Spark サービスよりも 21%~55% 優れた費用対効果を実現できる仕組みをご確認ください。

              Dataproc と Apache Spark 向け Google Cloud Serverless が Spark のデプロイを簡素化し、運用の複雑さを軽減する仕組みについて説明します。

              よくある質問

              Dataproc と Apache Spark 向け Google Cloud Serverless のどちらを選択すべきですか?

              クラスタ環境をきめ細かく制御する必要がある場合、既存の Hadoop/Spark ワークロードを移行する場合、または多様なオープンソース ツールを備えた永続的なクラスタが必要な場合は、Dataproc を選択してください。管理モデル、理想的なワークロード、費用構造の違いの詳細な内訳について。

              完全ガイドを見る

              はい。Dataproc は、最新のオープンソース データスタックのための統合プラットフォームです。30 以上のコンポーネントをサポートしており、ストリーム処理用の Flink やインタラクティブ SQL 用の Trino などのツールの専用クラスタを、すべて単一のマネージド サービスで実行できます。

              すべてのオプション コンポーネントを見る

               高いレベルで制御できます。Dataproc では、マシンタイプ、ディスクサイズ、ネットワーク構成をカスタマイズできます。また、初期化アクションを使用して、カスタム ソフトウェアをインストールしたり、独自のコンテナ イメージを導入したり、スポット VM を活用して費用を最適化したりすることもできます。

              クラスタをカスタマイズする方法を学ぶ

              Dataproc
              • Google Cloud プロダクト
              • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
              Google Cloud