Google Cloud Dataproc とは

Cloud Dataproc は、オープンソースのデータツールを利用してバッチ処理、クエリ実行、ストリーミング、機械学習を行えるマネージド Spark / Hadoop サービスです。Cloud Dataproc の自動化機能を利用すると、クラスタを速やかに作成し、クラスタを簡単に管理し、必要ないときにはクラスタを無効にして費用を節約できます。管理にかかる時間と費用が削減されるので、自分の仕事とデータに集中できます。

Cloud Dataproc を使用する理由

クラスタに含まれるノードの数が 3 から数百である場合、従来のオンプレミス製品および競合するクラウド サービスと比べて、Cloud Dataproc には他に類を見ない数多くの利点があります。

  • 低コスト - Cloud Dataproc の料金は、他に使用する Cloud Platform リソースに加えて、クラスタの仮想 CPU ごとに 1 時間あたりわずか 1 セントです。この低料金に加え、Cloud Dataproc クラスタには計算料金が低いプリエンプティブなインスタンスを含めることができるので、費用をさらに低く抑えることができます。Cloud Dataproc では、使用時間を直近の時間単位に切り上げるのではなく、実際に使用したものに対してのみ分単位(最小請求対象期間は 1 分)で課金されます。
  • 超高速 - Cloud Dataproc を使用しないと、オンプレミスや IaaS プロバイダで Spark と Hadoop クラスタを作成するのに 5~30 分ほどかかります。これに対し、Cloud Dataproc クラスタは起動、スケーリング、シャットダウンが高速で、こうした各オペレーションに要する時間は平均 90 秒以下です。つまり、クラスタの待機時間を減らし、実際にデータを扱う時間を増やすことができます。
  • 統合 - Cloud Dataproc には、BigQueryCloud StorageCloud BigtableStackdriver LoggingStackdriver Monitoring など他の Google Cloud Platform サービスとの統合があらかじめ組み込まれているため、単なる Spark クラスタや Hadoop クラスタではなく完全なデータ プラットフォームが得られます。たとえば、Cloud Dataproc を使用すると、テラバイト単位の未加工のログデータを BigQuery に直接 ETL して業務報告書を簡単に作成できます。
  • マネージド - 管理者の助けや特別なソフトウェアを必要としないで、Spark クラスタと Hadoop クラスタを使用できます。Google Cloud Platform Console や Google Cloud SDK、Cloud Dataproc REST API を使用すると、クラスタと Spark ジョブや Hadoop ジョブと簡単にやり取りできます。クラスタでの作業が完了したら、クライアントを無効にするだけです。アイドル状態のクラスタには費用がかかりません。Cloud Dataproc は Cloud StorageBigQueryCloud Bigtable と統合されているため、データの損失について心配する必要はありません。
  • 簡単で一般的 - Cloud Dataproc を使用するために新しいツールや API を学習する必要はなく、開発し直さなくても既存のプロジェクトを Cloud Dataproc に簡単に移行できます。Spark、Hadoop、Pig、Hive は頻繁に更新されるため、生産性を高めることができます。

Cloud Dataproc の内容

オープンソース(Hadoop、Spark、Hive、Pig)のリストと Cloud Dataproc でサポートされている Google Cloud Platform コネクタのバージョンについては、Cloud Dataproc バージョン リストをご覧ください。

Cloud Dataproc を使ってみる

早速 Cloud Dataproc を使ってみる場合は、Cloud Dataproc クイックスタートをご覧ください。次の方法で Cloud Dataproc にアクセスできます。

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

Cloud Dataproc ドキュメント
ご不明な点がありましたら、Google のサポートページをご覧ください。