Dataproc
Dataproc は、Apache Hadoop、Apache Spark、Apache Flink、Presto をはじめ、30 以上のオープンソース ツールやフレームワークを実行するための、フルマネージドでスケーラビリティの高いサービスです。Dataproc を使用すれば、Google Cloud と統合されたスケーラブルな環境でデータレイクのモダナイゼーション、ETL、安全なデータ サイエンスを低コストで実現できます。
利点
オープンソースのデータ処理をモダナイズ
VM でも Kubernetes でも、Presto 用に追加メモリや GPU が必要な場合でも、Dataproc はオンデマンドの専用に構築された環境やサーバーレス環境でデータ処理と分析処理の速度を向上できます。
高度なセキュリティ、コンプライアンス、ガバナンス
Dataproc、BigLake、Dataplex を使用して、行レベルと列レベルの詳細なアクセス制御を行います。 既存の Kerberos ポリシーと Apache Ranger ポリシーを使用して、ユーザーの認可と認証を管理、施行できます。
主な機能
主な機能
フルマネージドで自動化されたビッグデータ用オープンソース ソフトウェア
サーバーレス デプロイ、ロギング、モニタリングを使用すると、インフラストラクチャではなくデータと分析に集中できます。Apache Spark の管理の TCO を最大 54% 削減します。Vertex AI Workbench との統合により、データ サイエンティストやエンジニアは、従来のノートブックと比較して、5 倍速くモデルを構築してトレーニングできます。Dataproc Jobs API を使用すると、ビッグデータをカスタム アプリケーションに簡単に統合できます。Dataproc Metastore では、独自の Hive メタストアまたはカタログ サービスを実行する手間が省けます。
Kubernetes を使用した Apache Spark ジョブのコンテナ化
Dataproc on Kubernetes を使用して Apache Spark ジョブを作成できるので、Dataproc を Google Kubernetes Engine(GKE)と連携させてジョブのポータビリティと分離を可能にできます。
Google Cloud と統合されたエンタープライズ セキュリティ
Dataproc クラスタを作成するときにセキュリティ構成を追加することで、Kerberos による Hadoop セキュアモードを有効にできます。また、Dataproc でよく使用されている Google Cloud 固有のセキュリティ機能には、デフォルト保存時暗号化、OS ログイン、VPC Service Controls、顧客管理の暗号鍵(CMEK)などがあります。
Google Cloud を最大限に活用したオープンソースの真価
Dataproc では、現在使用しているオープンソース ツール、アルゴリズム、プログラミング言語を利用でき、なおかつ、これらをクラウド規模のデータセットに簡単に適用できます。同時に、Dataproc は Google Cloud の分析、データベース、AI といったエコシステムの他の要素とも即統合できます。データ サイエンティストとエンジニアは、すぐにデータにアクセスでき、Dataproc を BigQuery、Vertex AI、Cloud Spanner、Pub/Sub、Data Fusion に接続するデータ アプリケーションをすばやく構築できます。
ドキュメント
ドキュメント
サーバーレス Spark
自動プロビジョニングと自動スケーリングを行う Spark ジョブを送信します。詳しくは、以下のクイックスタート リンクをご覧ください。
Dataproc 初期化アクション
事前ビルド済みの初期化アクションを使って Dataproc クラスタに他の OSS プロジェクトを追加します。
オープンソース コネクタ
Apache Hadoop と相互運用するためのライブラリとツール
Dataproc ワークフロー テンプレート
Dataproc の WorkflowTemplates API には、ワークフローを管理および実行するための柔軟で使いやすいメカニズムが備えられています。
ユースケース
ユースケース
企業は、既存のオンプレミスの Apache Hadoop および Spark のクラスタを Dataproc に移行することでコストを管理し、柔軟なスケーリングを活用しています。Dataproc では、自動スケーリングによってあらゆるデータ処理ジョブや分析処理ジョブをサポートできる、フルマネージドの目的に特化したクラスタを利用できます。
目的に特化した Dataproc クラスタを起動して理想的なデータ サイエンス環境を構築します。Apache Spark、NVIDIA RAPIDS、Juypter ノートブックなどのオープン ソース ソフトウェアと Google Cloud AI サービスおよび GPU を統合することで、機械学習と AI の開発を加速できます。
すべての機能
すべての機能
サーバーレス Spark | インフラストラクチャの手動プロビジョニングや調整なしで自動スケーリングできる Spark アプリケーションとパイプラインをデプロイします。 |
サイズ変更可能なクラスタ | クラスタの作成とスケーリングは迅速に行うことができ、さまざまな仮想マシンタイプ、ディスクサイズ、ノード数、ネットワーク オプションを選択できます。 |
クラスタの自動スケーリング | Dataproc の自動スケーリングは、クラスタ リソースの管理を自動化するメカニズムを提供します。これにより、クラスタ ワーカー(ノード)を自動的に追加または削除できます。 |
クラウドとの統合 | Cloud Storage、BigQuery、Dataplex、Vertex AI、Composer、Cloud Bigtable、Cloud Logging、Cloud Monitoring とのインテグレーションが組み込まれているため、より完全で堅牢なデータ プラットフォームが提供されます。 |
バージョニング | イメージのバージョニングで、Apache Spark、Apache Hadoop、他のツールのバージョンを切り替えることができます。 |
クラスタのスケジュール設定された削除 | 非アクティブなクラスタに対する課金を避けるため、Dataproc のスケジュール設定された削除を使用できます。可能な削除方法は、アイドル状態になってから指定時間が経過したクラスタを削除する、指定した時刻にクラスタを削除する、指定した期間が経過した後にクラスタを削除する、の 3 つです。 |
自動構成と手動構成 | ハードウェアとソフトウェアの構成は Dataproc によって自動的に行われますが、手動で制御することもできます。 |
デベロッパー ツール | 使いやすいウェブ UI、Cloud SDK、RESTful API、SSH アクセスなどのさまざまな方法でクラスタを管理できます。 |
初期化アクション | クラスタの作成時に、初期化アクションを実行して必要な設定とライブラリをインストールまたはカスタマイズできます。 |
オプション コンポーネント | オプション コンポーネントを使用することで、クラスタに追加コンポーネントをインストールして構成できます。オプション コンポーネントは Dataproc コンポーネントと統合されており、Zeppelin、Presto、その他の Apache Hadoop および Apache Spark エコシステムに関連するオープンソース ソフトウェア コンポーネントの完全に構成された環境を提供します。 |
カスタム コンテナとイメージ | Dataproc サーバーレス Spark は、カスタム Docker コンテナでプロビジョニングできます。 Dataproc クラスタは、プリインストールされた Linux オペレーティング システム パッケージを含むカスタム イメージを使ってプロビジョニングできます。 |
柔軟な仮想マシン | クラスタではカスタム マシンタイプとプリエンプティブル仮想マシンを使用できるので、クラスタのサイズがニーズに応じて最適化されます。 |
コンポーネント ゲートウェイとノートブックへのアクセス | Dataproc のコンポーネント ゲートウェイを有効にすると、クラスタで実行されている Dataproc のデフォルト コンポーネントおよびオプション コンポーネントのウェブ インターフェースにワンクリックでセキュアにアクセスできます。 |
ワークフロー テンプレート | Dataproc のワークフロー テンプレートは、ワークフローを管理、実行するための柔軟で使いやすいメカニズムを提供します。ワークフロー テンプレートは再利用可能なワークフロー構成で、ジョブをどこで実行するかに関する情報によってジョブのグラフを定義します。 |
ポリシーの自動管理 | クラスタのフリート全体にわたってセキュリティ、コスト、インフラストラクチャのポリシーを標準化します。プロジェクト レベルでリソース管理、セキュリティ、ネットワークのポリシーを作成できます。また、ユーザーが適切なイメージ、コンポーネント、メタストア、その他の周辺機器サービスを簡単に使用できるようににして、将来、クラスタのフリートとサーバーレス Spark ポリシーの管理を行えるようにもなります。 |
スマート通知 | Dataproc の推奨アラートを使用すると、事前構成済みアラートのしきい値を調整して、アイドル状態、急増中のクラスタ、ジョブ、過剰使用クラスタなどに関するアラートを取得できます。さらに、これらのアラートをカスタマイズしたり、高度なクラスタとジョブ管理機能を作成したりすることもできます。こうした機能により、大規模なフリートの管理が可能です。 |
Dataproc メタストア | フルマネージドの高可用性 Hive メタストア(HMS)で、きめ細かいアクセス制御を行い、BigQuery メタストア、Dataplex、Data Catalog と統合します。 |
料金
料金
Dataproc の料金は、vCPU の数とその実行時間の長さに基づきます。価格には 1 時間あたりの料金が表示されますが、実際には秒単位で課金されるため、お支払いいただくのはご利用になった分のみです。
たとえば、4 つの CPU で構成されるクラスタが 6 件あり(1 件のメイン + 5 件のワーカー)、各クラスタが 2 時間実行された場合、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48
詳しくは料金ページをご覧ください。