【Next Tokyo ’24】セッションのアーカイブ動画とスライドを公開中です。生成 AI を中心とした Google Cloud のアップデートや顧客事例をチェックしましょう。
移動
Dataproc

Dataproc

Dataproc は、Apache Hadoop、Apache Spark、Apache Flink、Presto をはじめ、30 以上のオープンソース ツールやフレームワークを実行するための、フルマネージドでスケーラビリティの高いサービスです。Dataproc を使用すれば、Google Cloud と統合されたスケーラブルな環境でデータレイクのモダナイゼーション、ETL、安全なデータ サイエンスを低コストで実現できます。

  • 柔軟性: サーバーレスを使用することも、Google Compute と Kubernetes でクラスタを管理することもできます。データレイクとデータ ウェアハウスを統合して、構造化データと非構造化データの両方を保存、処理、分析できる Google 推奨のソリューションをデプロイしましょう

  • オープン: エンタープライズ レベルのセキュリティでオープンソースのデータ分析を大規模に実行する

  • インテリジェント: Vertex AIBigQueryDataplex との統合によりデータユーザーを有効にする

  • 安全: Kerberos、Apache Ranger、個人認証などの高度なセキュリティを構成する

  • 費用対効果: オンプレミスのデータレイクと比較して、秒単位の料金設定で TCO の 54% 低下を実現

利点

オープンソースのデータ処理をモダナイズ

サーバーレス デプロイ、ロギング、モニタリングを使用すると、インフラストラクチャではなくデータと分析に集中できます。Apache Spark の管理の TCO を最大 54% 削減します。 モデルの構築とトレーニングを 5 倍高速化。

データ サイエンス向けのインテリジェントでシームレスな OSS

データ サイエンティストやデータ アナリストは、BigQueryDataplexVertex AI、JupyterLab などの OSS ノートブックとのネイティブな統合を使用して、データ サイエンス ジョブをシームレスに実行できます。

Google Cloud と統合されたエンタープライズ セキュリティ

デフォルトの保存時の暗号化、OS Login、VPC Service Controls、顧客管理の暗号鍵(CMEK)などのセキュリティ機能。セキュリティ構成を追加して、Kerberos による Hadoop セキュアモードを有効にします。

主な機能

主な機能

フルマネージドで自動化されたビッグデータ用オープンソース ソフトウェア

サーバーレス デプロイ、ロギング、モニタリングを使用すると、インフラストラクチャではなくデータと分析に集中できます。Apache Spark の管理の TCO を最大 54% 削減します。Vertex AI Workbench との統合により、データ サイエンティストやエンジニアは、従来のノートブックと比較して、5 倍速くモデルを構築してトレーニングできます。Dataproc Jobs API を使用すると、ビッグデータをカスタム アプリケーションに簡単に統合できます。Dataproc Metastore では、独自の Hive メタストアまたはカタログ サービスを実行する手間が省けます。

Kubernetes を使用した Apache Spark ジョブのコンテナ化

Dataproc on Kubernetes を使用して Apache Spark ジョブを作成できるので、Dataproc を Google Kubernetes Engine(GKE)と連携させてジョブのポータビリティと分離を可能にできます。

Google Cloud と統合されたエンタープライズ セキュリティ

Dataproc クラスタを作成するときにセキュリティ構成を追加することで、Kerberos による Hadoop セキュアモードを有効にできます。また、Dataproc でよく使用されている Google Cloud 固有のセキュリティ機能には、デフォルトでの保存データの暗号化、OS ログイン、VPC Service Controls、顧客管理の暗号鍵(CMEK)などがあります。

Google Cloud を最大限に活用したオープンソースの真価

Dataproc では、現在使用しているオープンソース ツール、アルゴリズム、プログラミング言語を利用でき、なおかつ、これらをクラウド規模のデータセットに簡単に適用できます。同時に、Dataproc は Google Cloud の分析、データベース、AI といったエコシステムの他の要素とも即統合できます。データ サイエンティストとエンジニアは、すぐにデータにアクセスでき、Dataproc を BigQueryVertex AISpannerPub/SubData Fusion に接続するデータ アプリケーションをすばやく構築できます。

すべての機能を表示

ドキュメント

ドキュメント

Google Cloud Basics

サーバーレス Spark

自動プロビジョニングと自動スケーリングを行う Spark ジョブを送信できます。詳しくは、以下のクイックスタート リンクをご覧ください。
APIs & Libraries

Dataproc 初期化アクション

事前ビルド済みの初期化アクションを使って Dataproc クラスタに他の OSS プロジェクトを追加します。
APIs & Libraries

オープンソース コネクタ

Apache Hadoop と相互運用するためのライブラリとツール
APIs & Libraries

Dataproc ワークフロー テンプレート

Dataproc の Workflow Templates API には、ワークフローを管理および実行するための柔軟で使いやすいメカニズムが備えられています。

お探しのものが見つからない場合

ユースケース

ユースケース

使用例
Hadoop および Spark クラスタをクラウドに移行

企業は、既存のオンプレミスの Apache Hadoop および Spark のクラスタを Dataproc に移行することでコストを管理し、柔軟なスケーリングを活用しています。Dataproc では、自動スケーリングによってあらゆるデータ処理ジョブや分析処理ジョブをサポートできる、フルマネージドの目的に特化したクラスタを利用できます。

すべての機能

すべての機能

サーバーレス Spark
インフラストラクチャの手動プロビジョニングや調整なしで自動スケーリングできる Spark のアプリケーションとパイプラインをデプロイします。
サイズ変更可能なクラスタ
さまざまな仮想マシンタイプ、ディスクサイズ、ノード数、ネットワーク オプションで、クラスタの作成とスケーリングを迅速に行います。
クラスタの自動スケーリング
Dataproc の自動スケーリングは、クラスタ リソースの管理を自動化するメカニズムを提供します。これにより、クラスタ ワーカー(ノード)を自動的に追加または削除できます。
クラウドとの統合
Cloud Storage、BigQuery、Dataplex、Vertex AI、Composer、Bigtable、Cloud Logging、Cloud Monitoring とのインテグレーションが組み込まれており、より完全で堅牢なデータ プラットフォームが提供されます。
自動構成または手動構成
ハードウェアとソフトウェアの構成は Dataproc によって自動的に行われますが、手動で制御することもできます。
デベロッパー ツール
使いやすいウェブ UI、Cloud SDK、RESTful API、SSH アクセスなどのさまざまな方法でクラスタを管理できます。
初期化アクション
初期化アクションを実行して、クラスタの作成時に必要な設定とライブラリをインストールまたはカスタマイズできます。
オプション コンポーネント
オプション コンポーネントを使用することで、クラスタに追加コンポーネントをインストールして構成できます。オプション コンポーネントは Dataproc コンポーネントと統合されており、Zeppelin、Presto、および Apache Hadoop と Apache Spark のエコシステムに関連するその他のオープンソース ソフトウェア コンポーネントに、完全に構成された環境を提供します。
カスタム コンテナとイメージ
Dataproc サーバーレス Spark は、カスタム Docker コンテナでプロビジョニングできます。Cloud Dataproc クラスタは、プリインストールされた Linux オペレーティング システム パッケージを含むカスタム イメージでプロビジョニングできます。
柔軟な仮想マシン
クラスタでは、カスタム マシンタイププリエンプティブル仮想マシンを使用できるので、クラスタのサイズがニーズに応じて最適化されます。
ワークフロー テンプレート
Dataproc のワークフロー テンプレートは、ワークフローを管理、実行するための柔軟で使いやすいメカニズムを提供します。ワークフロー テンプレートは再利用可能なワークフロー構成で、ジョブをどこで実行するかに関する情報によってジョブのグラフを定義します。
ポリシーの自動管理
クラスタのフリート全体にわたってセキュリティ、コスト、インフラストラクチャのポリシーを標準化します。プロジェクト レベルでリソース管理、セキュリティ、ネットワークのポリシーを作成できます。また、ユーザーが適切なイメージ、コンポーネント、メタストア、その他の周辺機器サービスを簡単に使用できるようにして、将来、クラスタのフリートとサーバーレス Spark ポリシーの管理を行えるようにします。
スマート通知
Dataproc の推奨アラートを使用すると、事前構成済みアラートのしきい値を調整して、アイドル状態、急増中のクラスタ、ジョブ、過剰使用クラスタなどに関するアラートを取得できます。さらに、これらのアラートをカスタマイズしたり、高度なクラスタとジョブ管理機能を作成したりすることもできます。こうした機能により、大規模なフリートの管理が可能です。
Google Distributed Cloud(GDC)上の Dataproc
Dataproc on GDC を使用すると、データセンターの GDC Edge Appliance で Spark を実行できます。これで、同じ Spark アプリケーションを Google Cloud とデータセンターのセンシティブ データで使用できるようになりました。
マルチリージョンの Dataproc Metastore
Dataproc Metastore は、きめ細かなアクセス制御機能を備えた、フルマネージドで可用性の高い Hive メタストア(HMS)です。マルチリージョンの Dataproc Metastore は、リージョンの停止に対するアクティブ / アクティブ DR と復元力を提供します。

料金

料金

Dataproc の料金は、vCPU の数とその実行時間の長さに基づきます。価格には 1 時間あたりの料金が表示されますが、実際には秒単位で課金されるため、お支払いいただくのはご利用になった分のみです。

例: 4 つの CPU の 6 つのノード(1 つのメイン + 5 つのワーカー)を持つクラスタをそれぞれ 2 時間実行した場合、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48

詳しくは料金ページをご覧ください。

パートナー

パートナー

Dataproc は主要パートナーと連携することで、企業の既存の投資とスキルセットを補完します。

次のステップ

$300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して、Google Cloud で構築を開始しましょう。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
コンソール
  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud