Dataproc

Dataproc

Dataproc は、Apache Hadoop、Apache Spark、Apache Flink、Presto をはじめ、30 以上のオープンソースツールやフレームワークを実行するための、フルマネージドでスケーラビリティの高いサービスです。Dataproc を使用すれば、Google Cloud と統合されたスケーラブルな環境でデータレイクのモダナイゼーション、ETL、安全なデータサイエンスを低コストで実現できます。

Dataproc の無料トライアル

オープン: エンタープライズレベルのセキュリティでオープンソースのデータ分析を大規模に実行する
柔軟性: サーバーレスを使用する、または Google Compute と Kubernetes でクラスタを管理する
インテリジェント: Vertex AI、BigQuery、Dataplex との統合によりデータユーザーを有効にする
安全: Kerberos、Apache Ranger、個人認証などの高度なセキュリティを構成する
費用対効果: オンプレミスのデータレイクと比較して、秒単位の料金設定で TCO の 54% 低下を実現

複数のロゴのリングの中心にある Dataproc アイコン: Apache Spark、Presto、Hive、Jupyter、Hadoop、Flink、Apache Pig

動画

Dataproc は、Apache Spark、Presto、Flink などの一般的な OSS をサポートしています。

1:23

利点

オープンソースのデータ処理をモダナイズ

サーバーレスデプロイ、ロギング、モニタリングを使用すると、インフラストラクチャではなくデータと分析に集中できます。Apache Spark の管理の TCO を最大 54% 削減します。モデルの構築とトレーニングを 5 倍高速化。

データサイエンス向けのインテリジェントでシームレスな OSS

データサイエンティストやデータアナリストは、BigQuery、Dataplex、Vertex AI、JupyterLab などの OSS ノートブックとのネイティブな統合を通じて、データサイエンスジョブをシームレスに実行できます。

Google Cloud と統合されたエンタープライズセキュリティ

デフォルトの保存時の暗号化、OS Login、VPC Service Controls、顧客管理の暗号鍵（CMEK）などのセキュリティ機能。セキュリティ構成を追加して、Kerberos による Hadoop セキュアモードを有効にします。

主な機能

フルマネージドで自動化されたビッグデータ用オープンソースソフトウェア

サーバーレスデプロイ、ロギング、モニタリングを使用すると、インフラストラクチャではなくデータと分析に集中できます。Apache Spark の管理の TCO を最大 54% 削減します。Vertex AI Workbench との統合により、データサイエンティストやエンジニアは、従来のノートブックと比較して、5 倍速くモデルを構築してトレーニングできます。Dataproc Jobs API を使用すると、ビッグデータをカスタムアプリケーションに簡単に統合できます。Dataproc Metastore では、独自の Hive メタストアまたはカタログサービスを実行する手間が省けます。

Kubernetes を使用した Apache Spark ジョブのコンテナ化

Dataproc on Kubernetes を使用して Apache Spark ジョブを作成できるので、Dataproc を Google Kubernetes Engine（GKE）と連携させてジョブのポータビリティと分離を可能にできます。

Google Cloud と統合されたエンタープライズセキュリティ

Dataproc クラスタを作成するときにセキュリティ構成を追加することで、Kerberos による Hadoop セキュアモードを有効にできます。また、Dataproc でよく使用されている Google Cloud 固有のセキュリティ機能には、デフォルトでの保存データの暗号化、OS ログイン、VPC Service Controls、顧客管理の暗号鍵（CMEK）などがあります。

Google Cloud を最大限に活用したオープンソースの真価

Dataproc では、現在使用しているオープンソースツール、アルゴリズム、プログラミング言語を利用でき、なおかつ、これらをクラウド規模のデータセットに簡単に適用できます。同時に、Dataproc は Google Cloud の分析、データベース、AI といったエコシステムの他の要素とも即統合できます。データサイエンティストとエンジニアは、すぐにデータにアクセスでき、Dataproc を BigQuery、Vertex AI、Spanner、Pub/Sub、Data Fusion に接続するデータアプリケーションをすばやく構築できます。

すべての機能を表示

動画

デモ: Dataproc と Cloud Storage がローン処理の効率化にどのように役立つかを確認する

3:39

導入事例

Dataproc を使用しているお客様

Blog post

Broadcom は Dataproc を使用してデータレイクをモダナイズし、柔軟なデータ管理を実現

所要時間: 5 分

Case study

Dataproc を利用して、Wayfair は高パフォーマンスで、メンテナンスをあまり必要としない大規模な非構造化データアクセス環境を実現しています。

所要時間: 8 分

Video

Vodafone Group は 600 台のオンプレミス Apache Hadoop サーバーをクラウドへ移行します。

47:17

Case study

Twitter はオンプレミスの Hadoop から Google Cloud に移行し、コスト効率に優れたデータの保存とクエリを実現しました。

49:57

Case study

Pandora はオンプレミスの Hadoop から 7 PB 以上のデータを Google Cloud に移行し、スケールの拡大とコスト削減を実現しました。

50:51

Case study

Dataproc クラスタのスピンアップとスピンダウンにより、METRO はインフラストラクチャコストを 30% から 50% 削減できました。

所要時間: 5 分

すべてのお客様を表示

サーバーレス Spark

自動プロビジョニングと自動スケーリングを行う Spark ジョブを送信できます。詳しくは、以下のクイックスタートリンクをご覧ください。

詳細

APIs & Libraries

Dataproc 初期化アクション

事前ビルド済みの初期化アクションを使って Dataproc クラスタに他の OSS プロジェクトを追加します。

詳細

APIs & Libraries

オープンソースコネクタ

Apache Hadoop と相互運用するためのライブラリとツール

詳細

APIs & Libraries

Dataproc ワークフローテンプレート

Dataproc の Workflow Templates API には、ワークフローを管理および実行するための柔軟で使いやすいメカニズムが備えられています。

詳細

お探しのものが見つからない場合

すべてのプロダクトドキュメントを見る

リリースノート

Dataproc の最新リリースノートを読む。

ユースケース

使用例

Hadoop および Spark クラスタをクラウドに移行

企業は、既存のオンプレミスの Apache Hadoop および Spark のクラスタを Dataproc に移行することでコストを管理し、柔軟なスケーリングを活用しています。Dataproc では、自動スケーリングによってあらゆるデータ処理ジョブや分析処理ジョブをサポートできる、フルマネージドの目的に特化したクラスタを利用できます。

Best practice

Apache Spark 移行ガイド

Google Cloud では Spark コードを再作成する必要はありません。

詳細

Best practice

Google Cloud への HDFS データの移行

オンプレミス HDFS データを Google Cloud Storage へ移行すべき状況とその方法を説明します。

詳細

Best practice

オンプレミスから Dataproc へのセキュリティ管理の移行

社内コンプライアンスと業界コンプライアンスを達成するため、既存のセキュリティ管理を Dataproc へ移行します。

詳細

使用例

Dataproc のデータサイエンス

目的に特化した Dataproc クラスタをスピンアップして、理想的なデータサイエンス環境を構築します。Apache Spark、NVIDIA RAPIDS、Juypter ノートブックなどのオープンソースソフトウェアと Google Cloud AI サービスおよび GPU を統合することで、機械学習と AI の開発を加速できます。

Tutorial

機械学習に Dataproc と Apache Spark ML を使用する

Dataproc を他の Google Cloud サービスと統合し、エンドツーエンドのデータサイエンスエクスペリエンスを実現します。

詳細

Best practice

Dataproc Hub を使った IT 制御のオープンソースデータサイエンス

データサイエンティストが必要なオープンソースツールをすべて、IT で制御され、コスト管理された方法で利用できるようにする Dataproc Hub の仕組みをご確認ください。

詳細

Tutorial

Dataproc と TensorFlow on YARN の連携

TonY で分散 TensorFlow をオーケストレートする方法を説明します。

詳細

すべての技術ガイドを見る

すべての機能

サーバーレス Spark	インフラストラクチャの手動プロビジョニングや調整なしで自動スケーリングできる Spark のアプリケーションとパイプラインをデプロイします。
サイズ変更可能なクラスタ	さまざまな仮想マシンタイプ、ディスクサイズ、ノード数、ネットワークオプションで、クラスタの作成とスケーリングを迅速に行います。
クラスタの自動スケーリング	Dataproc の自動スケーリングは、クラスタリソースの管理を自動化するメカニズムを提供します。これにより、クラスタワーカー（ノード）を自動的に追加または削除できます。
クラウドとの統合	Cloud Storage、BigQuery、Dataplex、Vertex AI、Composer、Bigtable、Cloud Logging、Cloud Monitoring とのインテグレーションが組み込まれており、より完全で堅牢なデータプラットフォームが提供されます。
自動構成または手動構成	ハードウェアとソフトウェアの構成は Dataproc によって自動的に行われますが、手動で制御することもできます。
デベロッパーツール	使いやすいウェブ UI、Cloud SDK、RESTful API、SSH アクセスなどのさまざまな方法でクラスタを管理できます。
初期化アクション	初期化アクションを実行して、クラスタの作成時に必要な設定とライブラリをインストールまたはカスタマイズできます。
オプションコンポーネント	オプションコンポーネントを使用することで、クラスタに追加コンポーネントをインストールして構成できます。オプションコンポーネントは Dataproc コンポーネントと統合されており、Zeppelin、Presto、および Apache Hadoop と Apache Spark のエコシステムに関連するその他のオープンソースソフトウェアコンポーネントに、完全に構成された環境を提供します。
カスタムコンテナとイメージ	Dataproc サーバーレス Spark は、カスタム Docker コンテナでプロビジョニングできます。Cloud Dataproc クラスタは、プリインストールされた Linux オペレーティングシステムパッケージを含むカスタムイメージでプロビジョニングできます。
柔軟な仮想マシン	クラスタでは、カスタムマシンタイプとプリエンプティブル仮想マシンを使用できるので、クラスタのサイズがニーズに応じて最適化されます。
ワークフローテンプレート	Dataproc のワークフローテンプレートは、ワークフローを管理、実行するための柔軟で使いやすいメカニズムを提供します。ワークフローテンプレートは再利用可能なワークフロー構成で、ジョブをどこで実行するかに関する情報によってジョブのグラフを定義します。
ポリシーの自動管理	クラスタのフリート全体にわたってセキュリティ、コスト、インフラストラクチャのポリシーを標準化します。プロジェクトレベルでリソース管理、セキュリティ、ネットワークのポリシーを作成できます。また、ユーザーが適切なイメージ、コンポーネント、メタストア、その他の周辺機器サービスを簡単に使用できるようにして、将来、クラスタのフリートとサーバーレス Spark ポリシーの管理を行えるようにします。
スマート通知	Dataproc の推奨アラートを使用すると、事前構成済みアラートのしきい値を調整して、アイドル状態、急増中のクラスタ、ジョブ、過剰使用クラスタなどに関するアラートを取得できます。さらに、これらのアラートをカスタマイズしたり、高度なクラスタとジョブ管理機能を作成したりすることもできます。こうした機能により、大規模なフリートの管理が可能です。
Google Distributed Cloud（GDC）上の Dataproc	Dataproc on GDC を使用すると、データセンターの GDC Edge Appliance で Spark を実行できます。これで、同じ Spark アプリケーションを Google Cloud とデータセンターのセンシティブデータで使用できるようになりました。
マルチリージョンの Dataproc Metastore	Dataproc Metastore は、きめ細かなアクセス制御機能を備えた、フルマネージドで可用性の高い Hive メタストア（HMS）です。マルチリージョンの Dataproc Metastore は、リージョンの停止に対するアクティブ / アクティブ DR と復元力を提供します。

料金

Dataproc の料金は、vCPU の数とその実行時間の長さに基づきます。価格には 1 時間あたりの料金が表示されますが、実際には秒単位で課金されるため、お支払いいただくのはご利用になった分のみです。

例: 4 つの CPU の 6 つのノード（1 つのメイン + 5 つのワーカー）を持つクラスタをそれぞれ 2 時間実行した場合、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48

詳しくは料金ページをご覧ください。

料金の詳細を表示

パートナー

Dataproc は主要パートナーと連携することで、企業の既存の投資とスキルセットを補完します。

すべてのパートナーを見る

次のステップ

$300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して、Google Cloud で構築を開始しましょう。

（プロダクト）無料トライアル

開始にあたりサポートが必要な場合
お問い合わせ
信頼できるパートナーと連携する
パートナーを探す
もっと見る
すべてのプロダクトを見る