Dataproc サーバーレスとは

Dataproc サーバーレスでは、独自のクラスタをプロビジョニングして管理することなく、Spark バッチ ワークロードを実行できます。ワークロード パラメータを指定してから、ワークロードを Dataproc サーバーレス サービスに送信します。このサービスは、マネージド コンピューティング インフラストラクチャでワークロードを実行し、必要に応じてリソースを自動スケーリングします。Dataproc サーバーレス料金は、ワークロードが実行されている時間に対してのみ適用されます。

Spark バッチ ワークロード用に Dataproc サーバーレスをスケジュールします。 Spark バッチ ワークロードは、Airflow バッチ演算子を使用して Airflow または Cloud Composer ワークフローの一部としてスケジュール設定できます。 詳細については、Cloud Composer で Dataproc サーバーレス ワークロードを実行するをご覧ください。

Spark 用 Dataproc サーバーレスと Compute Engine 上の Dataproc の比較

Compute Engine 上の Dataproc は、インフラストラクチャをプロビジョニングして管理し、Spark や他のオープンソース処理フレームワークでワークロードを実行するユーザーに最適です。次の表に、Compute Engine 上の Dataproc と Spark 用 Dataproc サーバーレスの主な違いを示します。

能力 Spark 向け Dataproc サーバーレス Compute Engine 上の Dataproc
処理フレームワーク Spark 3.2 Spark 3.1 以前のバージョン。その他のオープンソース フレームワーク(Hive など)
サーバーレス ×
スタートアップ時間 60s 90s
インフラストラクチャの制御 ×
リソース管理 Spark ベース YARN ベース
GPU のサポート 計画済み
インタラクティブ セッション 計画中(Google が管理) ○(お客様が管理)
カスタム コンテナ ×
VM アクセス(SSH など) ×
Java のバージョン Java 11 以前のバージョンのサポート
OS Login サポート * ×

注:

  • OS ログイン ポリシーは、Dataproc サーバーレスに適用またはサポートされません。組織で OS Login ポリシーを適用している場合、その Dataproc サーバーレス ワークロードは失敗します。

Spark 用 Dataproc サーバーレス ワークロード機能

Spark 用 Dataproc サーバーレス サービスでは、次の Spark ワークロード タイプを実行できます。

  • PySpark
  • Spark SQL
  • Spark R
  • Spark Java/Scala