Cloud Dataproc

高速で使いやすく、低コストな Apache Spark と Apache Hadoop の実行手段

無料トライアル

クラウド ネイティブな Apache Hadoop と Apache Spark

Cloud Dataproc は、Apache Spark および Apache Hadoop のクラスタを簡単かつコスト効率の高い方法で実行するための高速で使いやすいフルマネージド クラウド サービスです。これまで数時間から数日かかっていたオペレーションの実行時間が数秒または数分に短縮され、料金は使用したリソース(秒単位)に対してのみ発生します。また、他の Google Cloud Platform(GCP)サービスとの統合も簡単で、強力で包括的なデータ処理、分析、機械学習用のプラットフォームとなります。

マネージド型 Hadoop と Spark

高速かつスケーラブルなデータ処理

Cloud Dataproc クラスタは迅速に作成できるうえ、いつでもサイズ変更が可能で、ノード数を 3 個から数百個にまで調整できます。そのため、データ パイプラインの拡大ペースにクラスタの処理能力が追いつかないことを心配する必要はありません。インフラストラクチャ管理に奪われる時間を減らし、より多くの時間を分析作業に費やすことができます。クラスタの各操作にかかる時間は平均で 90 秒未満です。

高速でスケーラブルなデータ処理

手頃な料金

Google Cloud Platform の課金方式のもと、Cloud Dataproc は低コストでわかりやすい料金体系を採用しています。秒単位の従量制で、実際に使った分しか料金はかかりません。しかも、Cloud Dataproc クラスタには安価なプリエンプティブル インスタンスを含めることができ、確約利用割引や継続利用割引も適用されるため、総コストを低く抑えながら強力なクラスタを使用できます。

手頃な料金

オープンソース エコシステム

Spark と Hadoop のツール、ライブラリ、ドキュメントを Cloud Dataproc で使用できます。Cloud Dataproc は、Spark、Hadoop、Pig、Hive のネイティブ バージョンのアップデートを頻繁に提供しているため、新しいツールや API を学ばなくても使い始めることができ、既存のプロジェクトや ETL パイプラインを再開発なしで移行できます

オープンソース エコシステム

Cloud Dataproc の特長

Cloud Dataproc は、Apache Spark と Apache Hadoop の高速で使いやすく低コストなマネージド サービスです。

自動クラスタ管理
デプロイ、ロギング、モニタリングが管理されるため、クラスタではなくデータに集中できます。Cloud Dataproc クラスタは安定性が高く、スケーラブルで高速です。
サイズ変更可能なクラスタ
クラスタの作成とスケーリングは迅速に行うことができ、さまざまな仮想マシンタイプ、ディスクサイズ、ノード数、ネットワーク オプションを選択できます。
クラスタの自動スケーリング
Cloud Dataproc の自動スケーリングは、クラスタ リソースの管理を自動化するメカニズムを提供します。これにより、クラスタ ワーカー(ノード)を自動的に追加または削除できます。
クラウドとの統合
Cloud Storage、BigQuery、Cloud Bigtable、Stackdriver Logging、Stackdriver Monitoring、AI Hub との統合が組み込まれており、包括的で堅牢なデータ プラットフォームが提供されます。
バージョニング
イメージのバージョニングで、Apache Spark、Apache Hadoop、他のツールのバージョンを切り替えることができます。
高可用性
複数のマスターノードを持つ高可用性モードでクラスタを実行し、障害発生時に再起動するようにジョブを設定することで、クラスタとジョブの高可用性を確保します。
エンタープライズ セキュリティ
Cloud Dataproc クラスタを作成するときにセキュリティ構成を追加することで、Kerberos による Hadoop セキュアモードを有効にすることができます。また、GCP と Cloud Dataproc は、データの保護に役立つ追加のセキュリティ機能も備えています。Cloud Dataproc でよく使用されている GCP 固有のセキュリティ機能には、デフォルト保存時暗号化、OS ログイン、VPC Service Controls、顧客管理の暗号鍵(CMEK)などがあります。
クラスタのスケジュール設定された削除
アクティブでないクラスタに対して課金されないようにするため、Cloud Dataproc のスケジュール設定された削除を使用できます。可能な削除方法は、アイドル状態になってから指定時間が経過したクラスタを削除する、指定した時刻にクラスタを削除する、指定した期間が経過した後にクラスタを削除する、の 3 つです。
自動または手動構成
ハードウェアとソフトウェアの構成は Cloud Dataproc によって自動的に行われますが、手動で制御することもできます。
デベロッパー ツール
使いやすいウェブ UI、Cloud SDK、RESTful API、SSH アクセスなどのさまざまな方法でクラスタを管理できます。
初期化アクション
クラスタの作成時に初期化アクションを実行して、必要な設定やライブラリをインストールまたはカスタマイズできます。
オプション コンポーネント
オプション コンポーネントを使用することで、クラスタに追加コンポーネントをインストールして構成できます。オプション コンポーネントは Cloud Dataproc コンポーネントと統合されており、Zeppelin、Druid、Presto、その他の Apache Hadoop および Apache Spark エコシステムに関連するオープンソース ソフトウェア コンポーネントの完全に構成された環境を提供します。
カスタム イメージ
Cloud Dataproc クラスタは、プリインストールされた Linux オペレーティング システム パッケージを含むカスタム イメージを使ってプロビジョニングできます。
柔軟な仮想マシン
クラスタではカスタム マシンタイププリエンプティブル仮想マシンを使用できるので、クラスタのサイズがニーズに応じて最適化されます。
コンポーネント ゲートウェイとノートブックへのアクセス
Cloud Dataproc のコンポーネント ゲートウェイを有効にすると、クラスタで実行されている Cloud Dataproc のデフォルト コンポーネントおよびオプション コンポーネントのウェブ インターフェースにワンクリックでセキュアにアクセスできます。
ワークフロー テンプレート
Cloud Dataproc のワークフロー テンプレートは、ワークフローを管理、実行するための柔軟で使いやすいメカニズムを提供します。ワークフロー テンプレートは再利用可能なワークフロー構成であり、ジョブをどこで実行するかに関する情報によってジョブのグラフを定義します。

Cloud Dataproc の料金

Cloud Dataproc では、クラスタで使用される Compute Engine インスタンスの仮想 CPU ごとに少額の従量料金がかかります1

アイオワ(us-central1) オレゴン(us-west1) 北バージニア(us-east4) サウスカロライナ(us-east1) モントリオール(northamerica-northeast1) サンパウロ(southamerica-east1) ベルギー(europe-west1) ロンドン(europe-west2) オランダ(europe-west4) チューリッヒ(europe-west6) フランクフルト(europe-west3) シドニー(australia-southeast1) ムンバイ(asia-south1) 香港(asia-east2) 台湾(asia-east1) 東京(asia-northeast1) 大阪(asia-northeast2)
マシンタイプ 料金
標準マシン
1~64 仮想 CPU
ハイメモリ マシン
2~64 仮想 CPU
ハイ CPU マシン
2~64 仮想 CPU
カスタムマシン
仮想 CPU 数とメモリ使用量に基づく
米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。

1 Cloud Dataproc では、クラスタが稼働中のときにクラスタで使用される Compute Engine インスタンスの仮想 CPU ごとに少額の従量料金がかかります。Cloud Dataproc によって使用されるその他のリソース(Compute Engine ネットワーク、BigQuery、Cloud Bigtable など)は使った分だけ課金されます。詳しい料金情報については、料金ガイドをご覧ください。

注目のブログ

最新のブログを読んで、クラウドでのオープンソース データ処理についての理解を深めてください

Next ’19 のハイライト

お客様がコスト削減やデータドリブンの意思決定のために Cloud Dataproc をどのように活用しているかをご覧ください

Cloud Dataproc の最新機能
video_youtube
お客様はどのようにして Hadoop を Google Cloud Platform に移行しているか
video_youtube
Dataproc を誰にとっても価値あるものにする
video_youtube
Google Cloud

使ってみる

無料で体験

GCP を初めてご利用の場合、あらゆる GCP プロダクトを $300 相当の無料クレジットでお試しいただけます。

さらにサポートが必要な場合

Google のエキスパートが、適切なソリューションの構築や、お客様のニーズに合ったパートナーを見つけるお手伝いをいたします。

このページに記載されているプロダクトには、アルファ版、ベータ版、早期アクセスで提供しているものもあります。プロダクトのリリース段階の詳細については、こちらをご覧ください。

Cloud AI プロダクトはこちらに記載されている各種 SLA ポリシーに準拠しています。これらの SLA ポリシーで保証されているレイテンシや可用性は、他の Google Cloud サービスとは異なる場合があります。

フィードバックを送信...