Google Cloud Next Tokyo：7/30、31 東京ビッグサイトにて開催！

Dataproc

Google Dataproc によるマネージド Apache Spark と Hadoop

最も要求の厳しい Spark およびオープンソースのワークロードを、マネージドサービスでより簡単に、Gemini でよりスマートに、Lightning Engine でより高速に実行できます。

Apache Spark は Apache Software Foundation の商標です。

機能

業界トップクラスのパフォーマンス

Lightning Engine を使用して、最も要求の厳しい Spark ジョブを高速化します。Google の次世代エンジンは、マネージド最適化によりパフォーマンスを 4.3 倍以上高速化し、TCO と手動チューニングを削減します。現在 Dataproc のプレビュー版でご利用いただけます。

Lightning Engine の詳細

AI を活用した開発と運用

Gemini でワークフロー全体を加速させましょう。AI を活用したアシスタンスで PySpark コードの作成とデバッグを行い、Gemini Cloud Assist を使用して、失敗したジョブや実行速度の遅いジョブの根本原因分析を自動化することで、トラブルシューティング時間を大幅に短縮

Gemini アシスタンスについて詳しく見る

エンタープライズ AI/ML に対応

ML ライフサイクル全体を構築して運用化します。NVIDIA RAPIDS™ を活用した GPU サポートと、事前構成済みの ML ランタイムにより、モデルのトレーニングと推論を加速します。次に、より広範な Google Cloud AI エコシステムと統合して、Vertex AI Pipelines でエンドツーエンドの MLOps をオーケストレートします。

AI/ML パイプラインの構築

強力なレイクハウス統合

オープンなレイクハウスアーキテクチャにネイティブに接続します。BigQuery から直接データを処理し、Vertex AI Pipelines で MLOps をオーケストレートし、BigLake と Dataplex Universal Catalog でオープンデータのガバナンスを統合します。

Lakehouse ソリューションの詳細

比類のない制御とカスタマイズ

Dataproc クラスタをニーズに合わせてカスタマイズできます。Python、Scala、Java で開発し、幅広いマシンタイプから選択し、初期化アクションを使用してカスタムソフトウェアをインストールし、独自のコンテナイメージを使用して最大限のポータビリティを実現できます。

クラスタをカスタマイズする方法を学ぶ

エンタープライズクラスのセキュリティ

セキュリティポスチャーとシームレスに統合します。Spark クラスタで、IAM を使用して権限をきめ細かく設定し、VPC Service Controls を使用してネットワークセキュリティを確保し、Kerberos を使用して強力な認証を実現します。

セキュリティのベストプラクティスを確認する

仕組み

カスタムクラスタを構成し、Spark ジョブを送信して BigQuery と Cloud Storage からデータを処理します。統合されたモニタリング、セキュリティでパフォーマンスとガバナンスを管理します。

一般的な使用例

クラウドへの移行

オンプレミスの Apache Hadoop ワークロードと Spark ワークロードをシームレスにリフト＆シフトできます。また、セルフマネージドの「DIY Spark」からフルマネージドサービスに移行する理想的な方法でもあります。Dataproc は、従来の 2.x を含む幅広い Spark バージョンをサポートしているため、コードをすぐにリファクタリングする必要性が減り、移行が簡素化されます。これにより、チームが既存のオープンソーススキルを活用して、クラウドへの移行を迅速に進めることができます。

学習用リソース

クラウドへの移行

オンプレミスの Apache Hadoop ワークロードと Spark ワークロードをシームレスにリフト＆シフトできます。また、セルフマネージドの「DIY Spark」からフルマネージドサービスに移行する理想的な方法でもあります。Dataproc は、従来の 2.x を含む幅広い Spark バージョンをサポートしているため、コードをすぐにリファクタリングする必要性が減り、移行が簡素化されます。これにより、チームが既存のオープンソーススキルを活用して、クラウドへの移行を迅速に進めることができます。

レイクハウスのモダナイゼーション

Dataproc を、最新のデータレイクハウスの強力なオープンソース処理エンジンとして使用します。Apache Iceberg などのオープン形式でデータをデータレイクから直接処理し、データサイロや費用のかかるデータ移動を排除します。BigQuery および Dataplex Universal Catalog とシームレスに統合して、真に統合されたマルチエンジン分析とガバナンスプラットフォームを実現します。

学習用リソース

レイクハウスのモダナイゼーション

Dataproc を、最新のデータレイクハウスの強力なオープンソース処理エンジンとして使用します。Apache Iceberg などのオープン形式でデータをデータレイクから直接処理し、データサイロや費用のかかるデータ移動を排除します。BigQuery および Dataplex Universal Catalog とシームレスに統合して、真に統合されたマルチエンジン分析とガバナンスプラットフォームを実現します。

データエンジニアリング

エンタープライズグレードの信頼性とスケーリングを備えた、複雑で長時間実行される Spark ETL パイプラインを構築してオーケストレーションします。自動スケーリングなどの強力な機能を活用して費用とパフォーマンスを最適化し、ワークフローテンプレートを使用して、最も重要な本番環境レベルのジョブをエンドツーエンドで自動化および管理します。

学習用リソース

データエンジニアリング

エンタープライズグレードの信頼性とスケーリングを備えた、複雑で長時間実行される Spark ETL パイプラインを構築してオーケストレーションします。自動スケーリングなどの強力な機能を活用して費用とパフォーマンスを最適化し、ワークフローテンプレートを使用して、最も重要な本番環境レベルのジョブをエンドツーエンドで自動化および管理します。

大規模なデータサイエンス

データサイエンスチームに、大規模なモデルトレーニングとバッチ推論のための、強力でカスタマイズ可能な Spark クラスタ環境を提供します。事前構成済みの ML ランタイムと GPU サポートにより、ML ライフサイクル全体を加速し、Vertex AI と統合してエンドツーエンドの MLOps パイプラインを構築、運用できます。

学習用リソース

大規模なデータサイエンス

データサイエンスチームに、大規模なモデルトレーニングとバッチ推論のための、強力でカスタマイズ可能な Spark クラスタ環境を提供します。事前構成済みの ML ランタイムと GPU サポートにより、ML ライフサイクル全体を加速し、Vertex AI と統合してエンドツーエンドの MLOps パイプラインを構築、運用できます。

柔軟な OSS 分析エンジン

運用上のオーバーヘッドを増やすことなく、Spark と Hadoop を超える機能を利用できます。インタラクティブ SQL 用の Trino、高度なストリーム処理用の Flink、その他の特殊なオープンソースエンジンを使用して、専用クラスタをデプロイします。Dataproc は、マネージドサービスのシンプルさで、この多様なエコシステムを管理するための統合コントロールプレーンを提供します。

学習用リソース

柔軟な OSS 分析エンジン

運用上のオーバーヘッドを増やすことなく、Spark と Hadoop を超える機能を利用できます。インタラクティブ SQL 用の Trino、高度なストリーム処理用の Flink、その他の特殊なオープンソースエンジンを使用して、専用クラスタをデプロイします。Dataproc は、マネージドサービスのシンプルさで、この多様なエコシステムを管理するための統合コントロールプレーンを提供します。

料金

Dataproc マネージドクラスタ	Dataproc は従量課金制の料金体系です。自動スケーリングとプリエンプティブル VM で費用を最適化します。
_{主要コンポーネント}	_{Compute Engine インスタンス（vCPU、メモリ）}⁠ _{Dataproc サービス料金（vCPU 時間あたり）} _{永続ディスク}
例	4 つの CPU を持つ 6 つのノード（1 つのメイン + 5 つのワーカー）を持つクラスターをそれぞれ 2 時間実行すると、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48

Dataproc の料金の詳細を見る

Dataproc マネージドクラスタ

Dataproc は従量課金制の料金体系です。自動スケーリングとプリエンプティブル VM で費用を最適化します。

_{主要コンポーネント}

_{Compute Engine インスタンス（vCPU、メモリ）}⁠
_{Dataproc サービス料金（vCPU 時間あたり）}
_{永続ディスク}

例

4 つの CPU を持つ 6 つのノード（1 つのメイン + 5 つのワーカー）を持つクラスターをそれぞれ 2 時間実行すると、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48

Dataproc の料金の詳細を見る

料金計算ツール

リージョン固有の料金と手数料を含む、Dataproc の毎月の費用を試算する

カスタムの見積もり

カスタム見積もりをご希望の場合は、Google のセールスチームにお問い合わせください。

概念実証を開始する

新規のお客様向けの $300 相当のクレジット

大規模なプロジェクトを計画していますか？

テンプレートを使用して Spark ジョブを送信する

チュートリアル: Dataproc Spark から BigQuery コネクタ

詳細については、Dataproc のドキュメントをご覧ください

ビジネスケース

Google Dataproc のビジネスケースを構築する

代替ソリューションと比較した Google Cloud Dataproc とサーバーレス Spark の経済的メリット

オンプレミスや他のクラウドソリューションと比較して、Dataproc がどのように大幅な TCO 削減とビジネス価値を実現しているかをご覧ください。

このレポートの表示内容:

Dataproc と Apache Spark 向け Serverless が、他のクラウドベースの Spark 代替ソリューションと比較して、18%～60% の費用削減を実現できる仕組みをご確認ください。

Apache Spark 向け Google Cloud Serverless が、他のサーバーレス Spark サービスよりも 21%～55% 優れた費用対効果を実現できる仕組みをご確認ください。

Dataproc と Apache Spark 向け Google Cloud Serverless が Spark のデプロイを簡素化し、運用の複雑さを軽減する仕組みについて説明します。

よくある質問

Dataproc と Apache Spark 向け Google Cloud Serverless のどちらを選択すべきですか？

クラスタ環境をきめ細かく制御する必要がある場合、既存の Hadoop/Spark ワークロードを移行する場合、または多様なオープンソースツールを備えた永続的なクラスタが必要な場合は、Dataproc を選択してください。管理モデル、理想的なワークロード、費用構造の違いの詳細な内訳について。

完全ガイドを見る。

Spark と Hadoop 以外も使用できますか？

はい。Dataproc は、最新のオープンソースデータスタックのための統合プラットフォームです。30 以上のコンポーネントをサポートしており、ストリーム処理用の Flink やインタラクティブ SQL 用の Trino などのツールの専用クラスタを、すべて単一のマネージドサービスで実行できます。

すべてのオプションコンポーネントを見る。

クラスタ環境をどの程度制御できるか

高いレベルで制御できます。Dataproc では、マシンタイプ、ディスクサイズ、ネットワーク構成をカスタマイズできます。また、初期化アクションを使用して、カスタムソフトウェアをインストールしたり、独自のコンテナイメージを導入したり、スポット VM を活用して費用を最適化したりすることもできます。

クラスタをカスタマイズする方法を学ぶ。

Dataproc

Google Dataproc によるマネージド Apache Spark と Hadoop

プロダクトに関する情報

業界トップクラスのパフォーマンス

AI を活用した開発と運用

エンタープライズ AI/ML に対応

強力なレイクハウス統合

比類のない制御とカスタマイズ

最新のオープンソースデータスタック向けに構築

エンタープライズクラスのセキュリティ

カスタムクラスタを構成し、Spark ジョブを送信して BigQuery と Cloud Storage からデータを処理します。統合されたモニタリング、セキュリティでパフォーマンスとガバナンスを管理します。

クラウドへの移行

学習用リソース

クラウドへの移行

レイクハウスのモダナイゼーション

学習用リソース

レイクハウスのモダナイゼーション

データエンジニアリング

学習用リソース

データエンジニアリング

大規模なデータサイエンス

学習用リソース

大規模なデータサイエンス

柔軟な OSS 分析エンジン

学習用リソース

柔軟な OSS 分析エンジン

料金計算ツール

カスタムの見積もり

概念実証を開始する

新規のお客様向けの $300 相当のクレジット

大規模なプロジェクトを計画していますか？

テンプレートを使用して Spark ジョブを送信する

チュートリアル: Dataproc Spark から BigQuery コネクタ

詳細については、Dataproc のドキュメントをご覧ください

関連コンテンツ

Dataproc と Apache Spark 向け Google Cloud Serverless のどちらを選択すべきですか？

Spark と Hadoop 以外も使用できますか？

クラスタ環境をどの程度制御できるか

Dataproc

Google Dataproc によるマネージド Apache Spark と Hadoop

プロダクトに関する情報

業界トップクラスのパフォーマンス

AI を活用した開発と運用

エンタープライズ AI/ML に対応

強力なレイクハウス統合

比類のない制御とカスタマイズ

最新のオープンソース データスタック向けに構築

エンタープライズ クラスのセキュリティ

カスタム クラスタを構成し、Spark ジョブを送信して BigQuery と Cloud Storage からデータを処理します。統合されたモニタリング、セキュリティでパフォーマンスとガバナンスを管理します。

クラウドへの移行

学習用リソース

クラウドへの移行

レイクハウスのモダナイゼーション

学習用リソース

レイクハウスのモダナイゼーション

データ エンジニアリング

学習用リソース

データ エンジニアリング

大規模なデータ サイエンス

学習用リソース

大規模なデータ サイエンス

柔軟な OSS 分析エンジン

学習用リソース

柔軟な OSS 分析エンジン

料金計算ツール

カスタムの見積もり

概念実証を開始する

新規のお客様向けの $300 相当のクレジット

大規模なプロジェクトを計画していますか？

テンプレートを使用して Spark ジョブを送信する

チュートリアル: Dataproc Spark から BigQuery コネクタ

詳細については、Dataproc のドキュメントをご覧ください

関連コンテンツ

Dataproc と Apache Spark 向け Google Cloud Serverless のどちらを選択すべきですか？

Spark と Hadoop 以外も使用できますか？

クラスタ環境をどの程度制御できるか

最新のオープンソースデータスタック向けに構築

エンタープライズクラスのセキュリティ

カスタムクラスタを構成し、Spark ジョブを送信して BigQuery と Cloud Storage からデータを処理します。統合されたモニタリング、セキュリティでパフォーマンスとガバナンスを管理します。

データエンジニアリング

データエンジニアリング

大規模なデータサイエンス

大規模なデータサイエンス