Dataproc

高速で使いやすく、低コストな Apache Spark と Apache Hadoop の実行手段

無料トライアル

クラウド ネイティブな Apache Hadoop と Apache Spark

Dataproc は、Apache Spark および Apache Hadoop クラスタを簡単かつコスト効率の高い方法で実行するための高速で使いやすいフルマネージド クラウド サービスです。これまで数時間から数日かかっていたオペレーションの実行時間が数秒または数分に短縮され、料金は使用したリソース(秒単位)に対してのみ発生します。また、他の Google Cloud Platform(GCP)サービスとも簡単に統合できるため、データ処理、分析、機械学習用の強力で包括的なプラットフォームとして利用できます。

マネージド型 Hadoop と Spark

高速かつスケーラブルなデータ処理

Dataproc クラスタは迅速に作成できるうえ、いつでもサイズ変更が可能で、ノード数を 3 個から数百個にまで調整できます。そのため、データ パイプラインの拡大にクラスタの処理能力が追いつかない不安がありません。 インフラストラクチャ管理に奪われる時間を減らし、より多くの時間を分析作業に費やすことができます。クラスタの各操作にかかる時間は平均で 90 秒未満です。

高速かつスケーラブルなデータ処理

手頃な料金

Google Cloud Platform の課金方式のもと、Dataproc は低コストでわかりやすい料金体系を採用しています。秒単位の従量制で、実際に使った分しか料金はかかりません。しかも、Dataproc クラスタには安価なプリエンプティブル インスタンスを含めることができ、確約利用割引や継続利用割引も適用されるため、総コストを低く抑えながら強力なクラスタを使用できます。

手頃な料金

オープンソース エコシステム

Spark と Hadoop のツール、ライブラリ、ドキュメントを Dataproc で使用できます。Dataproc は、Spark、Hadoop、Pig、Hive のネイティブ バージョンのアップデートを頻繁に提供しているため、新しいツールや API を学ばなくても使い始めることができ、既存のプロジェクトや ETL パイプラインを再開発なしで移行できます

オープンソース エコシステム

Dataproc の特長

Dataproc は、Apache Spark と Apache Hadoop の高速で使いやすく低コストなマネージド サービスです。

自動クラスタ管理
デプロイメント、ロギング、モニタリングが管理されるため、クラスタではなくデータに集中できます。Cloud Dataproc クラスタは安定性が高く、スケーラブルで高速です。
サイズ変更可能なクラスタ
クラスタの作成とスケーリングは迅速に行うことができ、さまざまな仮想マシンタイプ、ディスクサイズ、ノード数、ネットワーク オプションを選択できます。
クラスタの自動スケーリング
Dataproc の自動スケーリングは、クラスタ リソースの管理を自動化するメカニズムを提供します。これにより、クラスタ ワーカー(ノード)を自動的に追加または削除できます。
クラウドとの統合
Cloud Storage、BigQuery、Bigtable、Stackdriver Logging、Stackdriver Monitoring、AI Hub との統合が組み込まれており、包括的で堅牢なデータ プラットフォームが提供されます。
バージョニング
イメージのバージョニングで、Apache Spark、Apache Hadoop、他のツールのバージョンを切り替えることができます。
高可用性
複数のマスターノードを持つ高可用性モードでクラスタを実行し、障害発生時に再起動するようにジョブを設定することで、クラスタとジョブの高可用性を確保します。
エンタープライズ セキュリティ
Dataproc クラスタを作成するときにセキュリティ構成を追加することで、Kerberos による Hadoop セキュアモードを有効にできます。 また、GCP と Dataproc は、データの保護に役立つ追加のセキュリティ機能も備えています。Dataproc でよく使用されている GCP 固有のセキュリティ機能には、デフォルト保存時暗号化、OS ログイン、VPC Service Controls、顧客管理の暗号鍵(CMEK)などがあります。
クラスタのスケジュール設定された削除
アクティブでないクラスタに対して課金されないようにするため、Cloud Dataproc のスケジュール設定された削除を使用できます。可能な削除方法は、アイドル状態になってから指定時間が経過したクラスタを削除する、指定した時刻にクラスタを削除する、指定した期間が経過した後にクラスタを削除する、の 3 つです。
自動または手動構成
ハードウェアとソフトウェアの構成は Dataproc によって自動的に行われますが、手動で制御することもできます。
デベロッパー ツール
使いやすいウェブ UI、Cloud SDK、RESTful API、SSH アクセスなどのさまざまな方法でクラスタを管理できます。
初期化アクション
クラスタの作成時に、初期化アクションを実行して必要な設定とライブラリをインストールまたはカスタマイズできます。
オプション コンポーネント
オプション コンポーネントを使用することで、クラスタに追加コンポーネントをインストールして構成できます。オプション コンポーネントは Dataproc コンポーネントと統合されており、Zeppelin、Druid、Presto、その他の Apache Hadoop および Apache Spark エコシステムに関連するオープンソース ソフトウェア コンポーネントの完全に構成された環境を提供します。
カスタム イメージ
Cloud Dataproc クラスタは、プリインストールされた Linux オペレーティング システム パッケージを含むカスタム イメージを使ってプロビジョニングできます。
柔軟な仮想マシン
クラスタではカスタム マシンタイププリエンプティブル仮想マシンを使用できるので、クラスタのサイズがニーズに応じて最適化されます。
コンポーネント ゲートウェイとノートブックへのアクセス
Dataproc のコンポーネント ゲートウェイを有効にすると、クラスタで実行されている Dataproc のデフォルト コンポーネントおよびオプション コンポーネントのウェブ インターフェースにワンクリックでセキュアにアクセスできます。
ワークフロー テンプレート
Dataproc のワークフロー テンプレートは、ワークフローを管理、実行するための柔軟で使いやすいメカニズムを提供します。 ワークフロー テンプレートは再利用可能なワークフロー構成であり、ジョブをどこで実行するかに関する情報によってジョブのグラフを定義します。

Dataproc の料金

Dataproc では、クラスタ 1 で使用される Compute Engine インスタンスの仮想 CPU ごとに少額の従量料金がかかります。

注目のブログ

最新のブログを読んで、クラウドでのオープンソース データ処理についての理解を深めてください

Next ’19 のハイライト

お客様がコスト削減やデータドリブンの意思決定のために Dataproc をどのように活用しているかをご覧ください

Cloud Dataproc の最新機能
video_youtube
お客様はどのようにして Hadoop を Google Cloud Platform に移行しているか
video_youtube
Dataproc を誰にとっても価値あるものにする
video_youtube
Google Cloud

使ってみる

無料で体験

GCP を初めてご利用の場合、あらゆる GCP プロダクトを $300 相当の無料クレジットでお試しいただけます。

さらにサポートが必要な場合

Google のエキスパートが、適切なソリューションの構築やお客様のニーズに合ったパートナーの選定をお手伝いいたします。

このページに記載されているプロダクトには、アルファ版、ベータ版、早期アクセスで提供しているものもあります。プロダクトのリリース段階の詳細については、こちらをご覧ください。

Cloud AI プロダクトはこちらに記載されている各種 SLA ポリシーに準拠しています。 これらの SLA ポリシーで保証されているレイテンシや可用性は、他の Google Cloud サービスと異なる場合があります。

フィードバックを送信...