Dataproc

Dataproc では、クラウド上で高速、簡単かつ安全にオープン ソース データと分析を実行できます。
Dataproc の無料トライアル
  • action/check_circle_24px Sketch で作成。

    カスタムマシンで 90 秒以内に自動スケーリング クラスタを起動

  • action/check_circle_24px Sketch で作成。

    フルマネージドの Apache Spark、Apache Hadoop、Presto、およびその他の OSS クラスタを構築

  • action/check_circle_24px Sketch で作成。

    使用するリソース分だけ支払うことで OSS の総所有コストを削減

  • action/check_circle_24px Sketch で作成。

    すべてのクラスタに暗号化と統合セキュリティを組み込み

  • action/check_circle_24px Sketch で作成。

    目的に特化したクラスタでデータ サイエンスを加速

カスタムマシンでカスタム OSS クラスタを迅速に構築

Presto に追加メモリが必要な場合でも、Apache Spark 機械学習のために GPU が必要な場合でも、Dataproc なら専用クラスタを 90 秒でスピンアップして、データ処理と分析処理の速度を向上できます。

使いやすく手頃な価格のクラスタ管理

Dataproc では、自動スケーリング、アイドル クラスタ削除、秒単位の料金設定などにより OSS の総所有コストを削減できるので、時間とリソースを他の作業へ集中させることができます。

デフォルトで組み込まれているセキュリティ

デフォルトの暗号化により、すべてのデータが確実に保護されます。JobsAPI とコンポーネント ゲートウェイにより、ネットワーキングやゲートウェイ ノードをセットアップせずに、Cloud IAM クラスタの権限を定義できます。

主な機能

自動クラスタ管理

デプロイメント、ロギング、モニタリングが管理されるため、クラスタではなくデータに集中できます。Cloud Dataproc クラスタは安定性が高く、スケーラブルで高速です。

OSS ジョブのコンテナ化

Dataproc 上に OSS ジョブ(Apache Spark など)を構築すると、Kubernetes を使ってそれらを素早くコンテナ化して、GKE クラスタがある場所ならどこでもデプロイできます。

エンタープライズ セキュリティ

Dataproc クラスタを作成するときにセキュリティ構成を追加することで、Kerberos による Hadoop セキュアモードを有効にできます。また、Dataproc でよく使用されている Google Cloud 固有のセキュリティ機能には、デフォルト保存時暗号化、OS ログイン、VPC Service Controls、顧客管理の暗号鍵(CMEK)などがあります。

すべての機能を表示

ドキュメント

ユースケース

ユースケース
Hadoop および Spark クラスタをクラウドに移行

企業は、既存のオンプレミスの Apache Hadoop および Spark のクラスタを Dataproc に移行することでコストを管理し、柔軟なスケーリングを活用しています。Dataproc では、自動スケーリングによってあらゆるデータ処理ジョブや分析処理ジョブをサポートできる、フルマネージドの目的に特化したクラスタを利用できます。

ユースケース
Dataproc のデータ サイエンス

目的に特化した Dataproc クラスタを起動して理想的なデータ サイエンス環境を構築します。Apache Spark、NVIDIA RAPIDS、Juypter ノートブックなどのオープン ソース ソフトウェアと Google Cloud AI サービスおよび GPU を統合することで、機械学習と AI の開発を加速できます。 

すべての機能

サイズ変更可能なクラスタ クラスタの作成とスケーリングは迅速に行うことができ、さまざまな仮想マシンタイプ、ディスクサイズ、ノード数、ネットワーク オプションを選択できます。
クラスタの自動スケーリング Dataproc の自動スケーリングは、クラスタ リソースの管理を自動化するメカニズムを提供します。これにより、クラスタ ワーカー(ノード)を自動的に追加または削除できます。
クラウドとの統合 Cloud Storage、BigQuery、Cloud Bigtable、Cloud Logging、Cloud Monitoring、AI Hub との統合が組み込まれており、包括的で堅牢なデータ プラットフォームが提供されます。
バージョニング イメージのバージョニングで、Apache Spark、Apache Hadoop、他のツールのバージョンを切り替えることができます。
高可用性 複数のマスターノードを持つ高可用性モードでクラスタを実行し、障害発生時に再起動するようにジョブを設定することで、クラスタとジョブの高可用性を確保します。
クラスタのスケジュール設定された削除 アクティブでないクラスタに対する課金を避けるため、Dataproc のスケジュール設定された削除を使用できます。可能な削除方法は、アイドル状態になってから指定時間が経過したクラスタを削除する、指定した時刻にクラスタを削除する、指定した期間が経過した後にクラスタを削除する、の 3 つです。
自動構成と手動構成 ハードウェアとソフトウェアの構成は Dataproc によって自動的に行われますが、手動で制御することもできます。
デベロッパー ツール 使いやすいウェブ UI、Cloud SDK、RESTful API、SSH アクセスなどのさまざまな方法でクラスタを管理できます。
初期化アクション クラスタの作成時に、初期化アクションを実行して必要な設定とライブラリをインストールまたはカスタマイズできます。
オプション コンポーネント オプション コンポーネントを使用することで、クラスタに追加コンポーネントをインストールして構成できます。オプション コンポーネントは Dataproc コンポーネントと統合されており、Zeppelin、Druid、Presto、その他の Apache Hadoop および Apache Spark エコシステムに関連するオープンソース ソフトウェア コンポーネントの完全に構成された環境を提供します。
カスタム イメージ Cloud Dataproc クラスタは、プリインストールされた Linux オペレーティング システム パッケージを含むカスタム イメージを使ってプロビジョニングできます。
柔軟な仮想マシン クラスタではカスタム マシンタイププリエンプティブル仮想マシンを使用できるので、クラスタのサイズがニーズに応じて最適化されます。
コンポーネント ゲートウェイとノートブックへのアクセス Dataproc のコンポーネント ゲートウェイを有効にすると、クラスタで実行されている Dataproc のデフォルト コンポーネントおよびオプション コンポーネントのウェブ インターフェースにワンクリックでセキュアにアクセスできます。
ワークフロー テンプレート Dataproc のワークフロー テンプレートは、ワークフローを管理、実行するための柔軟で使いやすいメカニズムを提供します。ワークフロー テンプレートは再利用可能なワークフロー構成で、ジョブをどこで実行するかに関する情報によってジョブのグラフを定義します。

料金

Dataproc の料金は、vCPU の数とその実行時間の長さに基づきます。価格には 1 時間あたりの料金が表示されますが、実際には秒単位で課金されるため、使った分だけ支払うことができます。詳しくは料金ページをご覧ください。

パートナー

Dataproc は主要パートナーと連携することで、企業の既存の投資とスキルセットを補完します。