Dataproc の利点: 分析と AI を変革する高度な Spark 機能
Newton Alex
Engineering Manager, Google Cloud
Abhishek Modi
Principal Software Engineer, Google Cloud
※この投稿は米国時間 2025 年 7 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。
優れた費用対効果を誇る Google Cloud のDataproc は、シンプルなマネージド オープンソース ソフトウェア(OSS)サービスから、Apache Spark とオープン レイクハウスの強力なサービスへと進化し、世界をリードする多くの企業の分析と AI のワークロードを推進しています。最近リリースされたマルチレイヤ最適化エンジンである Lightning Engine for Spark により、Dataproc のパフォーマンスはさらに魅力的になっています。
パフォーマンスは Dataproc の提供するサービスの基盤ですが、その機能はそれだけではありません。現代の企業要件に対応するため、Google はオープン レイクハウスのサポート、AI / ML ワークロードの高速化、BigQuery と Google Cloud Storage とのより緊密な統合の促進、エンタープライズ グレードのセキュリティの提供に投資してきました。この投稿では、これらの進歩と、Dataproc がオンプレミスや DIY 構成、または代替クラウド プロバイダのプラットフォームと異なる点について説明します。
オープンソース エンジンとオープン レイクハウス
既存のオンプレミス データレイク、クラウドベースの DIY クラスタからの移行、マルチクラウド戦略の策定など、どのような場合でも、Dataproc は機能が豊富でパフォーマンスの高い OSS スタックを提供し、オープン エコシステムとの高い互換性とパフォーマンスを実現します。この点に関するメリットをいくつかご紹介します。
-
高パフォーマンス: 現在プレビュー版の Lightning Engine Spark エンジンは、クエリや実行の最適化などの従来の最適化手法と、ファイル システム レイヤやコネクタでの最適化により、オープンソースの Apache Spark と比較して 3.6 倍のパフォーマンスを実現します。オープンソースの Apache Spark との完全な互換性があり、Google Compute Engine で Dataproc を実行している既存のワークロードに接続できます。


-
費用と効率の最適化: Spot VM のネイティブ サポート、インテリジェントな自動スケーリング、ストレージを意識した最適化により、総所有コストを削減します。最近の Dataproc の自動スケーリングの機能強化により、クラスタの VM 費用が最大 40% 削減され、ジョブの実行時間の合計が 10% 短縮されることが、Google の評価で示されています。
-
オープン レイクハウスのサポート: Apache Iceberg、Delta Lake、Apache Hudi などの主要なオープン テーブル形式に最初から対応しています。Dataproc は、カタログ サポート、高度な最適化、メタデータのキャッシュ保存、包括的なオブザーバビリティ機能により、レイクハウスの統合を改善します。
-
オープン メタストアの統合: BigLake Metastore、Iceberg Rest API 準拠のメタストア、Hive Metastore(HMS)準拠のメタストアをサポートし、オープンで相互運用可能なアーキテクチャを確保します。これにより、特に移行中に、既存のメタストアを簡単に操作できます。
ストレージ レイヤ全体にわたる最適化
Spark と Cloud Storage
Dataproc を Cloud Storage と統合して、データアクセス パターンを最適化し、費用を削減しました。主な改善点は次のとおりです。
-
よりスマートな API 再試行: レート制限を認識する再試行メカニズムにより、需要が高い期間でも、Cloud Storage からのデータアクセスが復元力と効率性に優れたものになります。
-
メタデータのオーバーヘッドの削減: 最適化されたコネクタにより、Cloud Storage API へのメタデータ呼び出しの数が大幅に減り、直接的な費用削減につながります。下のグラフは、オープンソース コネクタと比較した、Cloud Storage を使用する Lightning Engine のメタデータ最適化を示しています。


-
インテリジェントなキャッシュ保存とプリフェッチ: Cloud Storage からのデータ取得効率を高めるため、Dataproc はブロックレベルのキャッシュ保存とサブクエリの融合を統合します。さらに、ベクトル化されたスキャンの実装と Parquet 行グループのプロアクティブなプリフェッチにより、スキャンのボトルネックが軽減されます。
Spark と BigQuery の連動
Lightning Engine は、BigQuery のデータにアクセスする際に大きなメリットをもたらします。重要なものとしては、次のようなものがあります。
-
BigQuery ノートブックの Spark: データの単一コピーで複数のクエリエンジンを使用できるようになりました。BigQuery Studio ノートブックで Spark コードを直接作成してインタラクティブに実行できます。同じノートブックで Spark SQL または PySpark コードを記述します。
-
高速で高スループットの接続: 最適化された Spark 向け BigQuery コネクタ は、BigQuery Storage API を利用して大規模な並列読み取りを実現し、以前のバージョンと比較して最大 4 倍のパフォーマンス向上を実現します。また、コネクタは Apache Arrow 形式でデータを直接読み取るため、コストのかかるシリアル化の手順が不要になります。
-
インテリジェントなクエリ プッシュダウン: スマート フィルタ プッシュダウンにより、必要なデータのみが Spark クラスタに送信されるため、データ移動が最小限に抑えられます。
-
統合されたデータ検出: BigLake Metastore をフェデレーション Spark Metastore として使用することで、BigQuery テーブルが Dataproc Spark 環境で即座に検出可能になり、統合された分析エクスペリエンスが実現します。
以下のグラフは、BigQuery を使用した Lightning Engine のパフォーマンスが、BigQuery コネクタを使用したオープンソースの Spark と比較してどのように向上したかを示しています。


AI / ML 機能
Dataproc は、大規模なデータ処理から影響力の大きい AI と ML の成果までの道のりを合理化し、AI ワークロードのオンボーディングの参入障壁を低くします。データ サイエンティストがインフラストラクチャの管理ではなくモデル開発に集中できる、柔軟で強力な環境を提供します。主なメリットは次のとおりです。
-
ゼロスケール クラスタ: 従来の長時間実行クラスタを維持するオーバーヘッドなしで、データ分析とノートブック ジョブを高速化します。ゼロスケール クラスタでは、ワーカーノードをゼロにスケールダウンできます。
-
ライブラリ管理: AI / ML エンジニアは、AI / ML 開発のために新しいライブラリを頻繁に試します。Dataproc にシンプルな addArtifacts メソッドを導入し、PyPI パッケージを Spark セッションに動的に追加できるようにしました。これにより、指定されたパッケージとその依存関係が Spark 環境にインストールされ、UDF のワーカーで使用できるようになります。
-
GPU を活用した高速 ML: Dataproc クラスタは、高性能な NVIDIA GPU を使用してプロビジョニングできます。Google の ML イメージには、GPU ドライバ、Spark RAPIDS、CUDA、cuDNN、NCCL、および XGBoost、PyTorch、トークナイザー、トランスフォーマーなどの ML ライブラリが事前に構成されているため、ML タスクをすぐに高速化できます。
-
高度な AI への明確な道筋: Dataproc は Vertex AI と緊密に統合されているため、Google の最先端モデルに加えて、サードパーティ モデルやオープンソース モデルにも簡単にアクセスできます。これにより、大規模なバッチ推論やその他の高度な MLOps ワークフローを Dataproc ジョブから直接実現できます。
エンタープライズ機能とセキュリティ
Dataproc は Google Cloud の安全な基盤上に構築されており、最も要求の厳しい企業向けに設計されたセキュリティ機能とガバナンス機能を提供します。
-
組織のポリシー / フリート管理: 組織のポリシーにより、リソースをプログラムで一元管理できます。管理者は、Dataproc クラスタのオペレーション、サイズ設定、費用など、Dataproc リソースに適用される制約を含むポリシーを定義できます。
-
きめ細かいアクセス制御と認証: Dataproc は Google Cloud の Identity and Access Management(IAM)と統合されています。さらに細かく制御するには、クラスタ内で強力な一元化された認証を行うために Kerberos を有効にできます。さらに、個人認証のサポートにより、ジョブとノートブックがエンドユーザー自身の認証情報を使用して実行されるようにクラスタを構成できるため、ユーザーレベルの正確なアクセス制御と監査が可能になります。
-
プロアクティブな脆弱性管理: Google は、堅牢な共通脆弱性識別子(CVE)検出およびパッチ適用プロセスを維持し、最新のセキュリティ パッチで Dataproc イメージを定期的に更新しています。重大な脆弱性が発見された場合は、新しいイメージ バージョンを迅速にリリースします。これにより、パッチが適用されたバージョンでクラスタを簡単に再作成し、脆弱性の露出を最小限に抑えることができます。
-
包括的な監査ロギングとリネージ: Dataproc は、すべての Google Cloud サービスと同様に、すべての管理アクティビティとデータアクセス イベントの詳細な Cloud Audit Logs を生成します。これにより、誰がいつ何をしたのかを明確かつ不変の記録として提供します。エンドツーエンドのガバナンスには、Dataplex Universal Catalog を活用できます。Dataproc、BigQuery、Cloud Storage のすべてのデータアセットにわたってデータリネージを自動的に検出、カタログ化、追跡し、コンプライアンスと影響分析のための全体像を提供します。
-
簡単なモニタリングと AI によるトラブルシューティング: サーバーレス Spark UI を使用すると、永続履歴サーバーを設定しなくてもすべての Spark 指標に簡単にアクセスできるため、手動によるオーバーヘッドがなくなります。Google Cloud Assist は、最新の Gemini AI モデルを使用してジョブの問題を特定し、修正と最適化を推奨します。
パフォーマンス、イノベーション、生産性
パフォーマンス、オープンソースのサポート、Google サービスとの緊密な統合、セキュリティ、AI / ML の強化により、Dataproc は他の Spark サービスよりも競争優位性を獲得しています。Dataproc は基盤となる複雑さを管理するため、インフラストラクチャの課題やオープンソースの懸念を解決するのではなく、データからビジネス価値を引き出すことに集中できます。オンプレミスの Hadoop 環境、クラウド上の DIY クラスタからの移行、クラウドネイティブのレイクハウスの構築、新しい AI ワークロードのオンボーディングなど、どのような場合でも Dataproc は、目標達成に必要なパフォーマンス、セキュリティ、柔軟性を競争力のある価格で提供します。
Dataproc がデータ戦略をどのように加速できるかについて詳しくは、公式ドキュメントをご覧いただくか、セールスチームにお問い合わせのうえデモをご予約ください。
-Google Cloud、エンジニアリング マネージャー、Newton Alex
-Google Cloud、プリンシパル ソフトウェア エンジニア Abhishek Modi