Google Cloud Next Tokyo ’23 の基調講演をオンデマンドで公開しています。ぜひご登録のうえご視聴ください。今すぐ登録
移動
Dataproc

Dataproc

Dataproc は、Apache Hadoop、Apache Spark、Apache Flink、Presto をはじめ、30 以上のオープンソース ツールやフレームワークを実行するための、フルマネージドでスケーラビリティの高いサービスです。Dataproc を使用すれば、Google Cloud と統合されたスケーラブルな環境でデータレイクのモダナイゼーション、ETL、安全なデータ サイエンスを低コストで実現できます。

  • オープン: エンタープライズ レベルのセキュリティでオープンソースのデータ分析を大規模に実行する

  • 柔軟性: サーバーレスを使用する、または Google Compute と Kubernetes でクラスタを管理する

  • インテリジェント: Vertex AIBigQueryDataplex との統合によりデータユーザーを有効にする

  • 安全: Kerberos、Apache Ranger、個人認証などの高度なセキュリティを構成する

  • 費用対効果: オンプレミスのデータレイクと比較して、秒単位の料金設定で TCO の 54% 低下を実現

利点

オープンソースのデータ処理をモダナイズ

VM でも Kubernetes でも、Presto 用に追加メモリや GPU が必要な場合でも、Dataproc はオンデマンドの専用に構築された環境やサーバーレス環境でデータ処理と分析処理の速度を向上できます。

データ サイエンス向けのインテリジェントでシームレスな OSS

データ サイエンティストやデータ アナリストは、BigQueryDataplexVertex AI とのネイティブな統合を使用してデータ サイエンス ジョブをシームレスに実行できます。

高度なセキュリティ、コンプライアンス、ガバナンス

Dataproc、BigLakeDataplex を使用して、行レベルと列レベルの詳細なアクセス制御を行います。既存の Kerberos ポリシーと Apache Ranger ポリシーを使用して、ユーザーの認可と認証を管理、施行できます。

主な機能

主な機能

フルマネージドで自動化されたビッグデータ用オープンソース ソフトウェア

サーバーレス デプロイ、ロギング、モニタリングを使用すると、インフラストラクチャではなくデータと分析に集中できます。Apache Spark の管理の TCO を最大 54% 削減します。Vertex AI Workbench との統合により、データ サイエンティストやエンジニアは、従来のノートブックと比較して、5 倍速くモデルを構築してトレーニングできます。Dataproc Jobs API を使用すると、ビッグデータをカスタム アプリケーションに簡単に統合できます。Dataproc Metastore では、独自の Hive メタストアまたはカタログ サービスを実行する手間が省けます。

Kubernetes を使用した Apache Spark ジョブのコンテナ化

Dataproc on Kubernetes を使用して Apache Spark ジョブを作成できるので、Dataproc を Google Kubernetes Engine(GKE)と連携させてジョブのポータビリティと分離を可能にできます。

Google Cloud と統合されたエンタープライズ セキュリティ

Dataproc クラスタを作成するときにセキュリティ構成を追加することで、Kerberos による Hadoop セキュアモードを有効にできます。また、Dataproc でよく使用されている Google Cloud 固有のセキュリティ機能には、デフォルトでの保存データの暗号化、OS ログイン、VPC Service Controls、顧客管理の暗号鍵(CMEK)などがあります。

Google Cloud を最大限に活用したオープンソースの真価

Dataproc では、現在使用しているオープンソース ツール、アルゴリズム、プログラミング言語を利用でき、なおかつ、これらをクラウド規模のデータセットに簡単に適用できます。同時に、Dataproc は Google Cloud の分析、データベース、AI といったエコシステムの他の要素とも即統合できます。データ サイエンティストとエンジニアは、すぐにデータにアクセスでき、Dataproc を BigQueryVertex AICloud SpannerPub/SubData Fusion に接続するデータ アプリケーションをすばやく構築できます。

すべての機能を表示

ドキュメント

ドキュメント

Google Cloud の基礎

サーバーレス Spark

自動プロビジョニングと自動スケーリングを行う Spark ジョブを送信できます。詳しくは、以下のクイックスタート リンクをご覧ください。