Dataproc は、オープンソースのデータツールを利用してバッチ処理、クエリ実行、ストリーミング、機械学習を行えるマネージド Spark / Hadoop サービスです。Dataproc の自動化機能を利用すると、クラスタを速やかに作成し、簡単に管理し、必要ないときには無効にして費用を節約できます。管理にかかる時間と費用が削減されるので、自分の仕事とデータに集中できます。
Dataproc を使用するメリット:
従来のオンプレミス プロダクトや競合するクラウド サービスと比較すると、Dataproc には 3 ノードから数百ノードを持つクラスタについて、いくつもの固有の利点があります。
- 低コスト - Dataproc の料金は、他に使用する Cloud Platform リソースに加えて、クラスタの仮想 CPU ごとに 1 時間あたりわずか 1 セントです。この低料金に加え、Dataproc クラスタには計算料金が低いプリエンプティブル インスタンスを含めることができるため、費用をさらに低く抑えることができます。Dataproc では、使用時間を直近の時間単位に切り上げるのではなく、実際に使用したものに対してのみ秒単位(最小請求対象期間は 1 分)で課金されます。
- 超高速 - Dataproc を使用しないと、オンプレミスまたは IaaS プロバイダで Spark と Hadoop クラスタを作成するのに 5~30 分かかる場合があります。これに対し、Dataproc クラスタは起動、スケーリング、シャットダウンが高速で、こうした各オペレーションに要する時間は平均 90 秒以下です。つまり、クラスタの待機時間を減らし、実際にデータを扱う時間を増やすことができます。
- 統合 - Dataproc には、BigQuery、Cloud Storage、Cloud Bigtable、Cloud Logging、Cloud Monitoring など他の Google Cloud Platform サービスとの統合があらかじめ組み込まれているため、単なる Spark クラスタや Hadoop クラスタではなく完全なデータ プラットフォームが得られます。たとえば、Dataproc を使用すると、テラバイト単位の生ログデータを簡単に BigQuery に直接 ETL してビジネス レポートを作成できます。
- マネージド - 管理者の助けや特別なソフトウェアを必要としないで、Spark クラスタと Hadoop クラスタを使用できます。Google Cloud Console、Cloud SDK、または Dataproc REST API を使用して、クラスタや Spark または Hadoop ジョブを簡単に操作できます。クラスタの使用が終了したら、クラスタをオフにするだけで、アイドル状態のクラスタに費用がかからないようにできます。Dataproc は Cloud Storage、BigQuery、Cloud Bigtable と統合されているため、データの損失について心配する必要はありません。
- 簡単で一般的 - Dataproc を使用するために新しいツールや API を学習する必要はなく、開発し直さなくても既存のプロジェクトを Dataproc に簡単に移行できます。Spark、Hadoop、Pig、Hive は頻繁に更新されるため、生産性を高めることができます。
Dataproc の内容:
Dataproc でサポートされているオープンソース(Hadoop、Spark、Hive、Pig)と Google Cloud Platform コネクタのバージョンのリストについては、Dataproc のバージョン リストをご覧ください。
Dataproc を活用してみる
Dataproc をすぐに使い始めるには、Dataproc のクイックスタートをご覧ください。Dataproc へは、次の方法でアクセスできます。
- REST API の使用
- Cloud SDK の使用
- Dataproc UI の使用
- Cloud クライアント ライブラリを介して