Cloud Dataproc

高速で使いやすく、低コストな Apache Spark と Apache Hadoop の実行手段

無料トライアル

クラウド ネイティブな Apache Hadoop と Apache Spark

Cloud Dataproc は、Apache Spark および Apache Hadoop クラスタをより簡単かつ低コストで実行できるようにする、高速で使いやすいフルマネージド クラウド サービスです。これまで数時間から数日かかっていたオペレーションが数秒から数分で処理され、使用したリソースに対してのみ(秒単位で)課金されます。また、他の Google Cloud Platform(GCP)サービスとの統合も簡単で、強力かつ包括的なデータ処理、分析、機械学習用のプラットフォームを提供できます。

マネージド型 Hadoop と Spark

高速かつスケーラブルなデータ処理

Cloud Dataproc クラスタは迅速に作成できるうえ、いつでもサイズ変更が可能で、3 個から数百個までのノードを使用できます。そのため、データ パイプラインの成長にクラスタが追いつかないことを心配する必要はありません。クラスタの各操作には平均で 90 秒もかかりません。インフラストラクチャにかかる時間を少なくして分析に集中する時間を増やすことができます。

高速でスケーラブルなデータ処理

手頃な料金

Google Cloud Platform の課金方式のもと、Cloud Dataproc は低コストでわかりやすい料金体系を採用しています。秒単位の従量制で、実際に使った分しか料金はかかりません。しかも、Cloud Dataproc クラスタには安価なプリエンプティブ インスタンスを含めることができ、総コストを低く抑えながら強力なクラスタを使用できます。

手頃な料金

オープンソース エコシステム

Spark および Hadoop エコシステムにより、Cloud Dataproc で利用できるツール、ライブラリ、ドキュメントが提供されています。Spark、Hadoop、Pig、Hive の更新頻度の高いネイティブ バージョンを提供しており、新しいツールや API を学ばなくても使い始めることができます。既存のプロジェクトや ETL パイプラインを再開発なしで移行できます

オープンソース エコシステム

Cloud Dataproc の特長

Google Cloud Dataproc は高速で使いやすく、低コストな Apache Spark と Apache Hadoop のマネージド サービスです。

自動クラスタ管理
デプロイ、ロギング、モニタリングが管理されるため、クラスタではなくデータに集中できます。安定かつスケーラブルで高速なクラスタが提供されます。
サイズ変更可能なクラスタ
クラスタは迅速な作成とスケーリングが可能で、仮想マシンの種類、ディスクサイズ、ノード数、ネットワーク オプションも選べます。
統合
Cloud Storage、BigQuery、Bigtable、Stackdriver Logging、Stackdriver Monitoring との統合が組み込まれており、包括的で堅牢なデータ プラットフォームが提供されます。
バージョニング
イメージのバージョニングで、Apache Spark、Apache Hadoop、他のツールのバージョンを切り替えることができます。
高可用性
複数のマスターノードを持つクラスタを実行し、障害発生時に再起動するようにジョブを設定することで、クラスタとジョブの高可用性を確保します。
デベロッパー ツール
使いやすいウェブ UI、Google Cloud SDK、RESTful API、SSH アクセスなど、さまざまな方法でクラスタを管理できます。
初期化操作
クラスタの作成時に、初期化操作を実行して必要な設定とライブラリをインストールまたはカスタマイズできます。
自動または手動構成
Cloud Dataproc はクラスタ上にハードウェアとソフトウェアを自動的に構成しますが、手動で管理することも可能です。
柔軟な仮想マシン
クラスタではカスタム マシンタイププリエンプティブ仮想マシンを使用できるので、ニーズに応じて最適なクラスタサイズが選択されます。

Cloud Dataflow と Cloud Dataproc のどちらを使用するか

Cloud Dataproc と Cloud Dataflow はどちらもデータ処理に使用でき、バッチとストリーミングは機能が重複しています。どちらのプロダクトがお使いの環境により適しているか、以下のフローでご確認ください。
Dataproc と Dataflow

Cloud Dataproc

Cloud Dataproc は、Apache ビッグデータ エコシステムの特定のコンポーネントに対応する環境での利用をおすすめします。

  • check ツール / パッケージ
  • check パイプライン
  • check 既存リソースのスキルセット

Cloud Dataflow

Cloud Dataflow は制約のない環境での利用をおすすめします。

  • check オペレーション上のオーバーヘッドが少ない
  • check バッチ パイプラインまたはストリーミング パイプラインの開発に統合アプローチを採用
  • check Apache Beam を使用
  • check Cloud Dataflow、Apache Spark、Apache Flink でランタイムとして使用でき、パイプラインのポータビリティに対応

推奨されるワークロード

ワークロード Cloud Dataproc Cloud Dataflow
ストリーム処理(ETL) check
バッチ処理(ETL) check check
反復処理とノートブック check
Spark ML での機械学習 check
機械学習の前処理 check(Cloud ML Engine 使用)

Cloud Dataproc の料金

Cloud Dataproc では、クラスタで使用される Compute Engine インスタンスの仮想 CPU ごとに少額の従量料金がかかります1

アイオワ(us-central1) オレゴン(us-west1) バージニア州北部(us-east4) サウスカロライナ(us-east1) モントリオール(northamerica-northeast1) サンパウロ(southamerica-east1) ベルギー(europe-west1) ロンドン(europe-west2) オランダ(europe-west4) フランクフルト(europe-west3) シドニー(australia-southeast1) ムンバイ(asia-south1) 台湾(asia-east1) 東京(asia-northeast1)
マシンタイプ 料金
標準マシン
1~64 仮想 CPU
ハイメモリ マシン
2~64 仮想 CPU
ハイ CPU マシン
2~64 仮想 CPU
カスタムマシン
仮想 CPU 数とメモリ使用量に基づく
米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。

1 Google Cloud Dataproc では、クラスタの稼働時にクラスタで使用される Compute Engine インスタンスの仮想 CPU ごとに少額の従量料金がかかります。Cloud Dataproc で使用される Compute Engine ネットワーク、BigQuery、Cloud Bigtable などのリソースについても、使った分だけ課金されます。詳しい料金情報については、料金ガイドをご覧ください。

フィードバックを送信...