Dataproc は、Apache Hadoop、Apache Spark、Apache Flink、Presto をはじめ、30 以上のオープンソース ツールやフレームワークを実行するための、フルマネージドでスケーラビリティの高いサービスです。Dataproc を使用すれば、Google Cloud と統合されたスケーラブルな環境でデータレイクのモダナイゼーション、ETL、安全なデータ サイエンスを低コストで実現できます。
利点
VM でも Kubernetes でも、Presto 用に追加メモリや GPU が必要な場合でも、Dataproc はオンデマンドの専用に構築された環境やサーバーレス環境でデータ処理と分析処理の速度を向上できます。
Dataproc、BigLake、Dataplex を使用して、行レベルと列レベルの詳細なアクセス制御を行います。既存の Kerberos ポリシーと Apache Ranger ポリシーを使用して、ユーザーの認可と認証を管理、施行できます。
主な機能
サーバーレス デプロイ、ロギング、モニタリングを使用すると、インフラストラクチャではなくデータと分析に集中できます。Apache Spark の管理の TCO を最大 54% 削減します。Vertex AI Workbench との統合により、データ サイエンティストやエンジニアは、従来のノートブックと比較して、5 倍速くモデルを構築してトレーニングできます。Dataproc Jobs API を使用すると、ビッグデータをカスタム アプリケーションに簡単に統合できます。Dataproc Metastore では、独自の Hive メタストアまたはカタログ サービスを実行する手間が省けます。
Dataproc on Kubernetes を使用して Apache Spark ジョブを作成できるので、Dataproc を Google Kubernetes Engine(GKE)と連携させてジョブのポータビリティと分離を可能にできます。
Dataproc クラスタを作成するときにセキュリティ構成を追加することで、Kerberos による Hadoop セキュアモードを有効にできます。また、Dataproc でよく使用されている Google Cloud 固有のセキュリティ機能には、デフォルトでの保存データの暗号化、OS ログイン、VPC Service Controls、顧客管理の暗号鍵(CMEK)などがあります。
Dataproc では、現在使用しているオープンソース ツール、アルゴリズム、プログラミング言語を利用でき、なおかつ、これらをクラウド規模のデータセットに簡単に適用できます。同時に、Dataproc は Google Cloud の分析、データベース、AI といったエコシステムの他の要素とも即統合できます。データ サイエンティストとエンジニアは、すぐにデータにアクセスでき、Dataproc を BigQuery、Vertex AI、Cloud Spanner、Pub/Sub、Data Fusion に接続するデータ アプリケーションをすばやく構築できます。
導入事例
最新情報
サーバーレス Spark の一般提供を開始しました。他の Spark on Google Cloud サービスのプレビューにも登録してください。
ドキュメント
ユースケース
企業は、既存のオンプレミスの Apache Hadoop および Spark のクラスタを Dataproc に移行することでコストを管理し、柔軟なスケーリングを活用しています。Dataproc では、自動スケーリングによってあらゆるデータ処理ジョブや分析処理ジョブをサポートできる、フルマネージドの目的に特化したクラスタを利用できます。
目的に特化した Dataproc クラスタをスピンアップして、理想的なデータ サイエンス環境を構築します。Apache Spark、NVIDIA RAPIDS、Juypter ノートブックなどのオープン ソース ソフトウェアと Google Cloud AI サービスおよび GPU を統合することで、機械学習と AI の開発を加速できます。
すべての機能
サーバーレス Spark | インフラストラクチャの手動プロビジョニングや調整なしで自動スケーリングできる Spark のアプリケーションとパイプラインをデプロイします。 |
サイズ変更可能なクラスタ | さまざまな仮想マシンタイプ、ディスクサイズ、ノード数、ネットワーク オプションで、クラスタの作成とスケーリングを迅速に行います。 |
クラスタの自動スケーリング | Dataproc の自動スケーリングは、クラスタ リソースの管理を自動化するメカニズムを提供します。これにより、クラスタ ワーカー(ノード)を自動的に追加または削除できます。 |
クラウドとの統合 | Cloud Storage、BigQuery、Dataplex、Vertex AI、Composer、Cloud Bigtable、Cloud Logging、Cloud Monitoring とのインテグレーションが組み込まれており、より完全で堅牢なデータ プラットフォームが提供されます。 |
バージョニング | イメージのバージョニングを使用すると、Apache Spark や Apache Hadoop といったツールのバージョンを切り替えることができます。 |
クラスタのスケジュール設定された削除 | 非アクティブなクラスタに対する課金を避けるため、Dataproc のスケジュール設定された削除を使用できます。これには、アイドル状態になってから指定時間が経過したクラスタを削除する、指定した時刻にクラスタを削除する、指定した期間が経過した後にクラスタを削除するオプションが用意されています。 |
自動構成または手動構成 | ハードウェアとソフトウェアの構成は Dataproc によって自動的に行われますが、手動で制御することもできます。 |
デベロッパー ツール | 使いやすいウェブ UI、Cloud SDK、RESTful API、SSH アクセスなどのさまざまな方法でクラスタを管理できます。 |
初期化アクション | 初期化アクションを実行して、クラスタの作成時に必要な設定とライブラリをインストールまたはカスタマイズできます。 |
オプション コンポーネント | オプション コンポーネントを使用することで、クラスタに追加コンポーネントをインストールして構成できます。オプション コンポーネントは Dataproc コンポーネントと統合されており、Zeppelin、Presto、および Apache Hadoop と Apache Spark のエコシステムに関連するその他のオープンソース ソフトウェア コンポーネントに、完全に構成された環境を提供します。 |
カスタム コンテナとイメージ | Dataproc サーバーレス Spark は、カスタム Docker コンテナでプロビジョニングできます。Cloud Dataproc クラスタは、プリインストールされた Linux オペレーティング システム パッケージを含むカスタム イメージでプロビジョニングできます。 |
柔軟な仮想マシン | クラスタでは、カスタム マシンタイプとプリエンプティブル仮想マシンを使用できるので、クラスタのサイズがニーズに応じて最適化されます。 |
コンポーネント ゲートウェイとノートブックへのアクセス | Dataproc のコンポーネント ゲートウェイにより、クラスタで実行されている Dataproc のデフォルト コンポーネントおよびオプション コンポーネントのウェブ インターフェースにワンクリックでセキュアにアクセスできます。 |
ワークフロー テンプレート | Dataproc のワークフロー テンプレートは、ワークフローを管理、実行するための柔軟で使いやすいメカニズムを提供します。ワークフロー テンプレートは再利用可能なワークフロー構成で、ジョブをどこで実行するかに関する情報によってジョブのグラフを定義します。 |
ポリシーの自動管理 | クラスタのフリート全体にわたってセキュリティ、コスト、インフラストラクチャのポリシーを標準化します。プロジェクト レベルでリソース管理、セキュリティ、ネットワークのポリシーを作成できます。また、ユーザーが適切なイメージ、コンポーネント、メタストア、その他の周辺機器サービスを簡単に使用できるようにして、将来、クラスタのフリートとサーバーレス Spark ポリシーの管理を行えるようにします。 |
スマート通知 | Dataproc の推奨アラートを使用すると、事前構成済みアラートのしきい値を調整して、アイドル状態、急増中のクラスタ、ジョブ、過剰使用クラスタなどに関するアラートを取得できます。さらに、これらのアラートをカスタマイズしたり、高度なクラスタとジョブ管理機能を作成したりすることもできます。こうした機能により、大規模なフリートの管理が可能です。 |
Dataproc メタストア | フルマネージドの高可用性 Hive メタストア(HMS)で、きめ細かいアクセス制御を行い、BigQuery メタストア、Dataplex、Data Catalog と統合します。 |
料金
Dataproc の料金は、vCPU の数とその実行時間の長さに基づきます。価格には 1 時間あたりの料金が表示されますが、実際には秒単位で課金されるため、お支払いいただくのはご利用になった分のみです。
たとえば、4 つの CPU で構成されるクラスタが 6 件あり(1 件のメイン + 5 件のワーカー)、各クラスタが 2 時間実行された場合、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48
詳しくは料金ページをご覧ください。