Dataproc Serverless を使用すると、独自の Dataproc クラスタのプロビジョニングや管理を行うことなく、Spark ワークロードを実行できます。Dataproc Serverless ワークロードを実行するには、次の 2 つの方法があります。
Dataproc Serverless for Spark バッチ
Google Cloud コンソール、Google Cloud CLI、または Dataproc API を使用して、バッチ ワークロードを Dataproc Serverless サービスに送信します。このサービスは、マネージド コンピューティング インフラストラクチャでワークロードを実行し、必要に応じてリソースを自動スケーリングします。Dataproc サーバーレス料金は、ワークロードが実行されている時間に対してのみ適用されます。
開始するには、Apache Spark バッチ ワークロードを実行するをご覧ください。
Dataproc Serverless for Spark Interactive
Dataproc Serverless for Spark Interactive セッションでは、Jupyter ノートブックでコードを記述、実行します。ノートブック セッションは次の方法で作成できます。
Dataproc JupyterLab プラグインを使用して、作成および管理するテンプレートから複数のノートブック セッションを作成します。ローカルマシンまたは Compute Engine VM にプラグインをインストールすると、異なる Spark カーネル構成に対応するさまざまなカードが JupyterLab ランチャー ページに表示されます。カードをクリックして Dataproc Serverless ノートブック セッションを作成し、ノートブックでコードの記述とテストを開始します。
また、Dataproc JupyterLab プラグインの JupyterLab ランチャー ページを使用して、次のアクションを実行することもできます。
- Dataproc on Compute Engine クラスタを作成する。
- Dataproc on Compute Engine クラスタにジョブを送信する。
- Google Cloud と Spark のログを表示する。
まず、サーバーレス バッチとインタラクティブ ノートブックのセッションに JupyterLab を使用するをご覧ください。
Spark 用 Dataproc サーバーレスと Compute Engine 上の Dataproc の比較
Dataproc on Compute Engine は、インフラストラクチャをプロビジョニングして管理し、Spark や他のオープンソース処理フレームワークでワークロードを実行する場合に最適です。次の表に、Dataproc on Compute Engine と Dataproc Serverless for Spark の主な違いを示します。
可能な操作 | Spark 向け Dataproc サーバーレス | Compute Engine 上の Dataproc |
---|---|---|
処理フレームワーク | バッチ: Spark 3.4 以前のバージョン インタラクティブ: Spark 3.4 以前のバージョンの PySpark カーネル |
Spark 3.3 またはそれより前のバージョン。Hive、Flink、Trino、Kafka などの他のオープンソース フレームワーク |
Serverless | ○ | × |
スタートアップ時間 | 60s | 90s |
インフラストラクチャの管理 | × | ○ |
リソース管理 | Spark ベース | YARN ベース |
GPU のサポート | はい | ○ |
インタラクティブ セッション | ○ | × |
カスタム コンテナ | はい | × |
VM アクセス(SSH など) | × | ○ |
Java のバージョン | Java 17、11 | 以前のバージョンがサポートされている |
OS Login
サポート * |
× | ○ |
注:
- OS ログイン ポリシーは、Dataproc サーバーレスに適用されず、サポートされません。組織が
OS Login
ポリシーを適用すると、その Dataproc サーバーレス ワークロードは失敗します。
Dataproc サーバーレスのセキュリティ コンプライアンス
Dataproc サーバーレスは、Dataproc のすべてのデータ所在地、CMEK、VPC-SC、その他のセキュリティ要件を遵守しています。
Dataproc Serverless for Spark のバッチ ワークロードの機能
Spark バッチ ワークロード タイプでは、次の Dataproc サーバーレスを実行できます。
- PySpark
- Spark SQL
- Spark R
- Spark(Java または Scala)
Dataproc Serverless for Spark バッチ ワークロードを送信するときに、Spark のプロパティを指定できます。