Dataproc サーバーレスでは、独自のクラスタをプロビジョニングして管理することなく、Spark バッチ ワークロードを実行できます。ワークロード パラメータを指定してから、ワークロードを Dataproc サーバーレス サービスに送信します。このサービスは、マネージド コンピューティング インフラストラクチャでワークロードを実行し、必要に応じてリソースを自動スケーリングします。Dataproc サーバーレス料金は、ワークロードが実行されている時間に対してのみ適用されます。
Spark バッチ ワークロード用に Dataproc サーバーレスをスケジュールします。 Spark バッチ ワークロードは、Airflow バッチ演算子を使用して Airflow または Cloud Composer ワークフローの一部としてスケジュール設定できます。 詳細については、Cloud Composer で Dataproc サーバーレス ワークロードを実行するをご覧ください。
Spark 用 Dataproc サーバーレスと Compute Engine 上の Dataproc の比較
Compute Engine 上の Dataproc は、インフラストラクチャをプロビジョニングして管理し、Spark や他のオープンソース処理フレームワークでワークロードを実行するユーザーに最適です。次の表に、Compute Engine 上の Dataproc と Spark 用 Dataproc サーバーレスの主な違いを示します。
能力 | Spark 向け Dataproc サーバーレス | Compute Engine 上の Dataproc |
---|---|---|
処理フレームワーク | Spark 3.2 | Spark 3.1 以前のバージョン。その他のオープンソース フレームワーク(Hive など) |
サーバーレス | ○ | × |
スタートアップ時間 | 60s | 90s |
インフラストラクチャの制御 | × | ○ |
リソース管理 | Spark ベース | YARN ベース |
GPU のサポート | 計画済み | ○ |
インタラクティブ セッション | 計画中(Google が管理) | ○(お客様が管理) |
カスタム コンテナ | ○ | × |
VM アクセス(SSH など) | × | ○ |
Java のバージョン | Java 11 | 以前のバージョンのサポート |
OS Login
サポート * |
× | ○ |
注:
- OS ログイン ポリシーは、Dataproc サーバーレスに適用またはサポートされません。組織で
OS Login
ポリシーを適用している場合、その Dataproc サーバーレス ワークロードは失敗します。
Spark 用 Dataproc サーバーレス ワークロード機能
Spark 用 Dataproc サーバーレス サービスでは、次の Spark ワークロード タイプを実行できます。
- PySpark
- Spark SQL
- Spark R
- Spark Java/Scala
- Spark バッチ ワークロードの送信時に、Spark のプロパティを指定できます。