こちらの Next のセッション 「Google Cloud を使用したオープンで統合されたデータ分析」で、エンタープライズ分析を簡略化する方法をご紹介します。

ジャンプ先

Dataproc

Dataproc は、Apache Spark、Apache Flink、Presto をはじめ、30 以上のオープンソース ツールやフレームワークを実行するための、フルマネージドでスケーラビリティの高いサービスです。Dataproc を使用すれば、データレイクのモダナイゼーション、ETL、安全なデータ サイエンスを、Google Cloud と完全に統合された極めてスケーラブルな環境で、低コストで実現できます。

  • action/check_circle_24px Sketch で作成。

    オープン: エンタープライズ レベルのセキュリティでオープンソースのデータ分析を大規模に実行

  • action/check_circle_24px Sketch で作成。

    柔軟性: サーバーレスを使用する、または Google ComputeKubernetes でクラスタを管理する

  • action/check_circle_24px Sketch で作成。

    インテリジェント: Vertex AIBigQueryDataPlex との統合によりデータユーザーを有効にする

  • action/check_circle_24px Sketch で作成。

    安全: Kerberos、Apache Ranger、個人認証などの高度なセキュリティ構成

  • action/check_circle_24px Sketch で作成。

    費用対効果: オンプレミスのデータレイクと比較して、秒単位の料金設定で TCO の 57% 低下を実現

利点

オープンソースのデータ処理をモダナイズ

VM でも Kubernetes でも、Presto 用に追加メモリや GPU が必要な場合でも、Dataproc はオンデマンドの専用に構築された環境やサーバーレス環境でデータ処理と分析処理の速度を向上できます。

データ サイエンス向けのインテリジェントでシームレスな OSS

データ サイエンティストやデータ アナリストは、Vertex AI とのネイティブな統合を使用してデータ サイエンス ジョブをシームレスに実行できます。

高度なセキュリティ、コンプライアンス、ガバナンス

既存の KerberosApache Ranger のポリシー、または個人用クラスタ認証を使用して、ユーザーの認証と認可を管理、施行できます。ネットワーク ノードを設定することなく権限を定義できます。

主な機能

主な機能

フルマネージドで自動化されたビッグデータ用オープンソース ソフトウェア

サーバーレスでデプロイ、ロギング、モニタリングを行うため、インフラストラクチャではなくデータと分析に集中できます。Apache Spark の管理の TCO を最大 57% 削減します。Vertex AI Workbench との統合により、データ サイエンティストとエンジニアは、従来のノートブックと比較して、5 倍速くモデルを構築してトレーニングできます。Dataproc Jobs API を使用すると、ビッグデータをカスタム アプリケーションに簡単に統合できます。Dataproc Metastore では、独自の Hive メタストアまたはカタログ サービスを実行する手間が省けます。

Kubernetes を使用した Apache Spark ジョブのコンテナ化

Dataproc on Kubernetes を使用して Apache Spark ジョブを作成できるので、Dataproc を Google Kubernetes Engine(GKE)と連携させてジョブのポータビリティと分離を可能にできます。

Google Cloud と統合されたエンタープライズ セキュリティ

Dataproc クラスタを作成するときにセキュリティ構成を追加することで、Kerberos による Hadoop セキュアモードを有効にできます。また、Dataproc でよく使用されている Google Cloud 固有のセキュリティ機能には、デフォルト保存時暗号化、OS Login、VPC Service Controls、顧客管理の暗号鍵(CMEK)などがあります。

Google Cloud を最大限に活用したオープンソースの真価

Dataproc では、現在使用しているオープンソース ツール、アルゴリズム、プログラミング言語を利用でき、なおかつ、これらをクラウド規模のデータセットに簡単に適用できます。同時に、Dataproc は Google Cloud の分析、データベース、AI といったエコシステムの他の要素とも即統合できます。データ サイエンティストとエンジニアは、データにすばやくアクセスでき、Dataproc を BigQueryVertex AICloud SpannerPub/SubData Fusion に接続するデータ アプリケーションを素早く構築できます。 

すべての特長を表示

最新情報

最新情報

Google Cloud のニュースレターにご登録いただくと、プロダクトの最新情報、イベント情報、スペシャル オファーのお知らせなどが配信されます。

ドキュメント

ドキュメント

API とライブラリ
Dataproc 初期化アクション

事前ビルド済みの初期化アクションを使って Dataproc クラスタに他の OSS プロジェクトを追加します。

API とライブラリ
オープンソース コネクタ

Apache Hadoop と相互運用するためのライブラリとツール

API とライブラリ
Dataproc ワークフロー テンプレート

Dataproc の WorkflowTemplates API には、ワークフローを管理および実行するための柔軟で使いやすいメカニズムが備えられています。

ユースケース

ユースケース

ユースケース
Hadoop および Spark クラスタをクラウドに移行

企業は、既存のオンプレミスの Apache Hadoop および Spark のクラスタを Dataproc に移行することでコストを管理し、柔軟なスケーリングを活用しています。Dataproc では、自動スケーリングによってあらゆるデータ処理ジョブや分析処理ジョブをサポートできる、フルマネージドの目的に特化したクラスタを利用できます。

すべての機能

すべての機能

サイズ変更可能なクラスタ クラスタの作成とスケーリングは迅速に行うことができ、さまざまな仮想マシンタイプ、ディスクサイズ、ノード数、ネットワーク オプションを選択できます。
クラスタの自動スケーリング Dataproc の自動スケーリングは、クラスタ リソースの管理を自動化するメカニズムを提供します。これにより、クラスタ ワーカー(ノード)を自動的に追加または削除できます。
クラウドとの統合 Cloud Storage、BigQuery、Cloud Bigtable、Cloud Logging、Cloud Monitoring、AI Hub との統合が組み込まれており、包括的で堅牢なデータ プラットフォームが提供されます。
バージョニング イメージのバージョニングで、Apache Spark、Apache Hadoop、他のツールのバージョンを切り替えることができます。
高可用性 複数のメインノードを持つ高可用性モードでクラスタを実行し、障害発生時に再起動するようにジョブを設定することで、クラスタとジョブの高可用性を確保します。
クラスタのスケジュール設定された削除 非アクティブなクラスタに対する課金を避けるため、Dataproc のスケジュール設定された削除を使用できます。可能な削除方法は、アイドル状態になってから指定時間が経過したクラスタを削除する、指定した時刻にクラスタを削除する、指定した期間が経過した後にクラスタを削除する、の 3 つです。
自動構成と手動構成 ハードウェアとソフトウェアの構成は Dataproc によって自動的に行われますが、手動で制御することもできます。
デベロッパー ツール 使いやすいウェブ UI、Cloud SDK、RESTful API、SSH アクセスなどのさまざまな方法でクラスタを管理できます。
初期化アクション クラスタの作成時に、初期化アクションを実行して必要な設定とライブラリをインストールまたはカスタマイズできます。
オプション コンポーネント オプション コンポーネントを使用することで、クラスタに追加コンポーネントをインストールして構成できます。オプション コンポーネントは Dataproc コンポーネントと統合されており、Zeppelin、Druid、Presto、その他の Apache Hadoop および Apache Spark エコシステムに関連するオープンソース ソフトウェア コンポーネントの完全に構成された環境を提供します。
カスタム イメージ Dataproc クラスタは、プリインストールされた Linux オペレーティング システム パッケージを含むカスタム イメージを使ってプロビジョニングできます。
柔軟な仮想マシン クラスタではカスタム マシンタイププリエンプティブル仮想マシンを使用できるので、クラスタのサイズがニーズに応じて最適化されます。
コンポーネント ゲートウェイとノートブックへのアクセス Dataproc のコンポーネント ゲートウェイを有効にすると、クラスタで実行されている Dataproc のデフォルト コンポーネントおよびオプション コンポーネントのウェブ インターフェースにワンクリックでセキュアにアクセスできます。
ワークフロー テンプレート Dataproc のワークフロー テンプレートは、ワークフローを管理、実行するための柔軟で使いやすいメカニズムを提供します。ワークフロー テンプレートは再利用可能なワークフロー構成で、ジョブをどこで実行するかに関する情報によってジョブのグラフを定義します。

料金

料金

Dataproc の料金は、vCPU の数とその実行時間の長さに基づきます。価格には 1 時間あたりの料金が表示されますが、実際には秒単位で課金されるため、お支払いいただくのはご利用になった分のみです。

たとえば、4 つの CPU で構成されるクラスタが 6 件あり(1 件のメイン + 5 件のワーカー)、各クラスタが 2 時間実行された場合、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48

詳しくは料金ページをご覧ください。

パートナー

パートナー

Dataproc は主要パートナーと連携することで、企業の既存の投資とスキルセットを補完します。