Dataproc は、Apache Hadoop、Apache Spark、Apache Flink、Presto をはじめ、30 以上のオープンソース ツールやフレームワークを実行するための、フルマネージドでスケーラビリティの高いサービスです。Dataproc を使用すれば、Google Cloud と統合されたスケーラブルな環境でデータレイクのモダナイゼーション、ETL、安全なデータ サイエンスを低コストで実現できます。
柔軟性: サーバーレスを使用することも、Google Compute と Kubernetes でクラスタを管理することもできます。データレイクとデータ ウェアハウスを統合して、構造化データと非構造化データの両方を保存、処理、分析できる Google 推奨のソリューションをデプロイしましょう
オープン: エンタープライズ レベルのセキュリティでオープンソースのデータ分析を大規模に実行する
安全: Kerberos、Apache Ranger、個人認証などの高度なセキュリティを構成する
費用対効果: オンプレミスのデータレイクと比較して、秒単位の料金設定で TCO の 54% 低下を実現
利点
サーバーレス デプロイ、ロギング、モニタリングを使用すると、インフラストラクチャではなくデータと分析に集中できます。Apache Spark の管理の TCO を最大 54% 削減します。 モデルの構築とトレーニングを 5 倍高速化。
デフォルトの保存時の暗号化、OS Login、VPC Service Controls、顧客管理の暗号鍵(CMEK)などのセキュリティ機能。セキュリティ構成を追加して、Kerberos による Hadoop セキュアモードを有効にします。
主な機能
サーバーレス デプロイ、ロギング、モニタリングを使用すると、インフラストラクチャではなくデータと分析に集中できます。Apache Spark の管理の TCO を最大 54% 削減します。Vertex AI Workbench との統合により、データ サイエンティストやエンジニアは、従来のノートブックと比較して、5 倍速くモデルを構築してトレーニングできます。Dataproc Jobs API を使用すると、ビッグデータをカスタム アプリケーションに簡単に統合できます。Dataproc Metastore では、独自の Hive メタストアまたはカタログ サービスを実行する手間が省けます。
Dataproc on Kubernetes を使用して Apache Spark ジョブを作成できるので、Dataproc を Google Kubernetes Engine(GKE)と連携させてジョブのポータビリティと分離を可能にできます。
Dataproc クラスタを作成するときにセキュリティ構成を追加することで、Kerberos による Hadoop セキュアモードを有効にできます。また、Dataproc でよく使用されている Google Cloud 固有のセキュリティ機能には、デフォルトでの保存データの暗号化、OS ログイン、VPC Service Controls、顧客管理の暗号鍵(CMEK)などがあります。
Dataproc では、現在使用しているオープンソース ツール、アルゴリズム、プログラミング言語を利用でき、なおかつ、これらをクラウド規模のデータセットに簡単に適用できます。同時に、Dataproc は Google Cloud の分析、データベース、AI といったエコシステムの他の要素とも即統合できます。データ サイエンティストとエンジニアは、すぐにデータにアクセスでき、Dataproc を BigQuery、Vertex AI、Spanner、Pub/Sub、Data Fusion に接続するデータ アプリケーションをすばやく構築できます。
導入事例
最新情報
サーバーレス Spark の一般提供を開始しました。他の Spark on Google Cloud サービスのプレビューにも登録してください。
ドキュメント
ユースケース
企業は、既存のオンプレミスの Apache Hadoop および Spark のクラスタを Dataproc に移行することでコストを管理し、柔軟なスケーリングを活用しています。Dataproc では、自動スケーリングによってあらゆるデータ処理ジョブや分析処理ジョブをサポートできる、フルマネージドの目的に特化したクラスタを利用できます。
目的に特化した Dataproc クラスタをスピンアップして、理想的なデータ サイエンス環境を構築します。Apache Spark、NVIDIA RAPIDS、Juypter ノートブックなどのオープン ソース ソフトウェアと Google Cloud AI サービスおよび GPU を統合することで、機械学習と AI の開発を加速できます。
すべての機能
サーバーレス Spark | インフラストラクチャの手動プロビジョニングや調整なしで自動スケーリングできる Spark のアプリケーションとパイプラインをデプロイします。 |
サイズ変更可能なクラスタ | さまざまな仮想マシンタイプ、ディスクサイズ、ノード数、ネットワーク オプションで、クラスタの作成とスケーリングを迅速に行います。 |
クラスタの自動スケーリング | Dataproc の自動スケーリングは、クラスタ リソースの管理を自動化するメカニズムを提供します。これにより、クラスタ ワーカー(ノード)を自動的に追加または削除できます。 |
クラウドとの統合 | Cloud Storage、BigQuery、Dataplex、Vertex AI、Composer、Bigtable、Cloud Logging、Cloud Monitoring とのインテグレーションが組み込まれており、より完全で堅牢なデータ プラットフォームが提供されます。 |
自動構成または手動構成 | ハードウェアとソフトウェアの構成は Dataproc によって自動的に行われますが、手動で制御することもできます。 |
デベロッパー ツール | 使いやすいウェブ UI、Cloud SDK、RESTful API、SSH アクセスなどのさまざまな方法でクラスタを管理できます。 |
初期化アクション | 初期化アクションを実行して、クラスタの作成時に必要な設定とライブラリをインストールまたはカスタマイズできます。 |
オプション コンポーネント | オプション コンポーネントを使用することで、クラスタに追加コンポーネントをインストールして構成できます。オプション コンポーネントは Dataproc コンポーネントと統合されており、Zeppelin、Presto、および Apache Hadoop と Apache Spark のエコシステムに関連するその他のオープンソース ソフトウェア コンポーネントに、完全に構成された環境を提供します。 |
カスタム コンテナとイメージ | Dataproc サーバーレス Spark は、カスタム Docker コンテナでプロビジョニングできます。Cloud Dataproc クラスタは、プリインストールされた Linux オペレーティング システム パッケージを含むカスタム イメージでプロビジョニングできます。 |
柔軟な仮想マシン | クラスタでは、カスタム マシンタイプとプリエンプティブル仮想マシンを使用できるので、クラスタのサイズがニーズに応じて最適化されます。 |
ワークフロー テンプレート | Dataproc のワークフロー テンプレートは、ワークフローを管理、実行するための柔軟で使いやすいメカニズムを提供します。ワークフロー テンプレートは再利用可能なワークフロー構成で、ジョブをどこで実行するかに関する情報によってジョブのグラフを定義します。 |
ポリシーの自動管理 | クラスタのフリート全体にわたってセキュリティ、コスト、インフラストラクチャのポリシーを標準化します。プロジェクト レベルでリソース管理、セキュリティ、ネットワークのポリシーを作成できます。また、ユーザーが適切なイメージ、コンポーネント、メタストア、その他の周辺機器サービスを簡単に使用できるようにして、将来、クラスタのフリートとサーバーレス Spark ポリシーの管理を行えるようにします。 |
スマート通知 | Dataproc の推奨アラートを使用すると、事前構成済みアラートのしきい値を調整して、アイドル状態、急増中のクラスタ、ジョブ、過剰使用クラスタなどに関するアラートを取得できます。さらに、これらのアラートをカスタマイズしたり、高度なクラスタとジョブ管理機能を作成したりすることもできます。こうした機能により、大規模なフリートの管理が可能です。 |
Google Distributed Cloud(GDC)上の Dataproc | Dataproc on GDC を使用すると、データセンターの GDC Edge Appliance で Spark を実行できます。これで、同じ Spark アプリケーションを Google Cloud とデータセンターのセンシティブ データで使用できるようになりました。 |
マルチリージョンの Dataproc Metastore | Dataproc Metastore は、きめ細かなアクセス制御機能を備えた、フルマネージドで可用性の高い Hive メタストア(HMS)です。マルチリージョンの Dataproc Metastore は、リージョンの停止に対するアクティブ / アクティブ DR と復元力を提供します。 |
料金
Dataproc の料金は、vCPU の数とその実行時間の長さに基づきます。価格には 1 時間あたりの料金が表示されますが、実際には秒単位で課金されるため、お支払いいただくのはご利用になった分のみです。
例: 4 つの CPU の 6 つのノード(1 つのメイン + 5 つのワーカー)を持つクラスタをそれぞれ 2 時間実行した場合、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48
詳しくは料金ページをご覧ください。