Data Cloud Summit では、データベース、分析、AI における最新のイノベーションを確認できます。ライブとオンデマンドは 5 月 26 日よりスタートします。

ジャンプ先

Dataproc

Dataproc は、Apache Spark、Apache Flink、Presto をはじめ、30 以上のオープンソース ツールやフレームワークを実行するための、フルマネージドでスケーラビリティの高いサービスです。Dataproc を使用すれば、データレイクのモダナイゼーション、ETL、安全なデータ サイエンスを、Google Cloud と完全に統合された極めてスケーラブルな環境で、低コストで実現できます。

  • action/check_circle_24px Sketch で作成。

    オープン: データレイク メタストアと統合されたフルマネージドのオープンソース クラスタをオンデマンドで構築

  • action/check_circle_24px Sketch で作成。

    柔軟性: OSS と GCP のネイティブ サービスを自在に組み合わせ、プラットフォーム全体で緊密な統合を実現

  • action/check_circle_24px Sketch で作成。

    管理: Dataproc Hub で、スケーラブルで安全かつコスト管理が可能なオープンソース データ サイエンスを実現

  • action/check_circle_24px Sketch で作成。

    安全: Kerberos、Apache Ranger、個人認証などの高度なセキュリティ構成

  • action/check_circle_24px Sketch で作成。

    費用対効果: オンプレミスのデータレイクと比較して、秒単位の料金設定で TCO の 57% 低下を実現

利点

オープンソースのデータ処理をモダナイズ

VM でも Kubernetes でも、Presto 用の追加メモリや GPU が必要な場合でも、Dataproc は専用に構築された環境をオンデマンドでスピンアップして、データ処理と分析処理の速度を向上できます。

費用対効果と安全性に優れたデータ サイエンス用 OSS

自動スケーリング、アイドル クラスタ削除、秒単位の料金設定、統合セキュリティなどにより、Dataproc Hub では、管理コストとセキュリティ リスクを最小限に抑えながら、オープンソースのデータ サイエンスをコスト効率よくスケールできます。

高度なセキュリティ、コンプライアンス、ガバナンス

既存の KerberosApache Ranger のポリシー、または個人用クラスタ認証を使用して、ユーザーの認証と認可を管理、施行できます。ネットワーク ノードを設定することなく権限を定義できます。

主な機能

主な機能

フルマネージドで自動化されたビッグデータ用オープンソース ソフトウェア

デプロイ、ロギング、モニタリングがフルマネージドであるため、インフラストラクチャではなくデータと分析に集中できます。Apache Spark の管理の TCO を最大 57% 削減します。データ サイエンティストとエンジニアは、Dataproc Hub でテンプレート化できる Jupyter ノートブックや Zeppelin ノートブックなどの使い慣れたツールを使用して、Dataproc を操作できます。Dataproc Jobs API を使用すると、ビッグデータをカスタム アプリケーションに簡単に統合できます。Dataproc Metastore では、独自の Hive メタストアまたはカタログ サービスを実行する手間が省けます。

Kubernetes を使用した Apache Spark ジョブのコンテナ化

Dataproc on Kubernetes を使用して Apache Spark ジョブを作成できるので、Dataproc を Google Kubernetes Engine(GKE)と連携させてジョブのポータビリティと分離を可能にできます。

Google Cloud と統合されたエンタープライズ セキュリティ

Dataproc クラスタを作成するときにセキュリティ構成を追加することで、Kerberos による Hadoop セキュアモードを有効にできます。また、Dataproc でよく使用されている Google Cloud 固有のセキュリティ機能には、デフォルト保存時暗号化、OS Login、VPC Service Controls、顧客管理の暗号鍵(CMEK)などがあります。

Google Cloud を最大限に活用したオープンソースの真価

Dataproc では、現在使用しているオープンソース ツール、アルゴリズム、プログラミング言語を利用でき、なおかつ、これらをクラウド規模のデータセットに簡単に適用できます。同時に、Dataproc は Google Cloud の分析、データベース、AI といったエコシステムの他の要素とも即統合できます。データ サイエンティストとエンジニアは、すぐにデータにアクセスでき、Dataproc を BigQueryAI Platform、Cloud Spanner、Pub/Sub、Data Fusion に接続するデータ アプリケーションをすばやく構築できます。

すべての機能を表示

導入事例

新機能

最新情報

Google Cloud のニュースレターにご登録いただくと、プロダクトの最新情報、イベント情報、特典のお知らせなどが配信されます。

ドキュメント

ドキュメント

ユースケース

ユースケース

ユースケース
Hadoop および Spark クラスタをクラウドに移行

企業は、既存のオンプレミスの Apache Hadoop および Spark のクラスタを Dataproc に移行することでコストを管理し、柔軟なスケーリングを活用しています。Dataproc では、自動スケーリングによってあらゆるデータ処理ジョブや分析処理ジョブをサポートできる、フルマネージドの目的に特化したクラスタを利用できます。

ユースケース
Dataproc のデータ サイエンス

目的に特化した Dataproc クラスタを起動して理想的なデータ サイエンス環境を構築します。Apache Spark、NVIDIA RAPIDS、Juypter ノートブックなどのオープン ソース ソフトウェアと Google Cloud AI サービスおよび GPU を統合することで、機械学習と AI の開発を加速できます。 

すべての機能

すべての機能

サイズ変更可能なクラスタ クラスタの作成とスケーリングは迅速に行うことができ、さまざまな仮想マシンタイプ、ディスクサイズ、ノード数、ネットワーク オプションを選択できます。
クラスタの自動スケーリング Dataproc の自動スケーリングは、クラスタ リソースの管理を自動化するメカニズムを提供します。これにより、クラスタ ワーカー(ノード)を自動的に追加または削除できます。
クラウドとの統合 Cloud Storage、BigQuery、Cloud Bigtable、Cloud Logging、Cloud Monitoring、AI Hub との統合が組み込まれており、包括的で堅牢なデータ プラットフォームが提供されます。
バージョニング イメージのバージョニングで、Apache Spark、Apache Hadoop、他のツールのバージョンを切り替えることができます。
高可用性 複数のマスターノードを持つ高可用性モードでクラスタを実行し、障害発生時に再起動するようにジョブを設定することで、クラスタとジョブの高可用性を確保します。
クラスタのスケジュール設定された削除 非アクティブなクラスタに対する課金を避けるため、Dataproc のスケジュール設定された削除を使用できます。可能な削除方法は、アイドル状態になってから指定時間が経過したクラスタを削除する、指定した時刻にクラスタを削除する、指定した期間が経過した後にクラスタを削除する、の 3 つです。
自動構成と手動構成 ハードウェアとソフトウェアの構成は Dataproc によって自動的に行われますが、手動で制御することもできます。
デベロッパー ツール 使いやすいウェブ UI、Cloud SDK、RESTful API、SSH アクセスなどのさまざまな方法でクラスタを管理できます。
初期化アクション クラスタの作成時に、初期化アクションを実行して必要な設定とライブラリをインストールまたはカスタマイズできます。
オプション コンポーネント オプション コンポーネントを使用することで、クラスタに追加コンポーネントをインストールして構成できます。オプション コンポーネントは Dataproc コンポーネントと統合されており、Zeppelin、Druid、Presto、その他の Apache Hadoop および Apache Spark エコシステムに関連するオープンソース ソフトウェア コンポーネントの完全に構成された環境を提供します。
カスタム イメージ Dataproc クラスタは、プリインストールされた Linux オペレーティング システム パッケージを含むカスタム イメージを使ってプロビジョニングできます。
柔軟な仮想マシン クラスタではカスタム マシンタイププリエンプティブル仮想マシンを使用できるので、クラスタのサイズがニーズに応じて最適化されます。
コンポーネント ゲートウェイとノートブックへのアクセス Dataproc のコンポーネント ゲートウェイを有効にすると、クラスタで実行されている Dataproc のデフォルト コンポーネントおよびオプション コンポーネントのウェブ インターフェースにワンクリックでセキュアにアクセスできます。
ワークフロー テンプレート Dataproc のワークフロー テンプレートは、ワークフローを管理、実行するための柔軟で使いやすいメカニズムを提供します。ワークフロー テンプレートは再利用可能なワークフロー構成で、ジョブをどこで実行するかに関する情報によってジョブのグラフを定義します。

料金

料金

Dataproc の料金は、vCPU の数とその実行時間の長さに基づきます。価格には 1 時間あたりの料金が表示されますが、実際には秒単位で課金されるため、お支払いいただくのはご利用になった分のみです。

たとえば、4 つの CPU で構成されるクラスタが 6 件あり(1 件のマスター + 5 件のワーカー)、各クラスタが 2 時間実行された場合、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48

詳しくは料金ページをご覧ください。

パートナー

パートナー

Dataproc は主要パートナーと連携することで、企業の既存の投資とスキルセットを補完します。