Dataproc Serverless を使用すると、独自の Dataproc クラスタのプロビジョニングと管理を行うことなく、Spark ワークロードを実行できます。Dataproc Serverless ワークロードを実行するには、次の 2 つの方法があります。
Dataproc Serverless for Spark バッチ
Google Cloud コンソール、Google Cloud CLI、または Dataproc API を使用して、Dataproc サーバーレス サービスにバッチ ワークロードを送信します。このサービスは、マネージド コンピューティング インフラストラクチャでワークロードを実行し、必要に応じてリソースを自動スケーリングします。Dataproc Serverless の料金は、ワークロードが実行されている時間に対してのみ適用されます。
使用を開始する前に、Apache Spark バッチ ワークロードを実行するをご覧ください。
Dataproc Serverless for Spark Interactive
Dataproc Serverless for Spark Interactive セッションでは、Jupyter ノートブックでコードを記述、実行します。ノートブック セッションは次の方法で作成できます。
Dataproc JupyterLab プラグインを使用して、作成および管理するテンプレートから複数のノートブック セッションを作成します。ローカルマシンまたは Compute Engine VM にプラグインをインストールすると、JupyterLab ランチャー ページに、さまざまな Spark カーネル構成に対応するさまざまなカードが表示されます。カードをクリックして Dataproc Serverless ノートブック セッションを作成し、ノートブックでコードの記述とテストを開始します。
Dataproc JupyterLab プラグインを使用すると、JupyterLab ランチャー ページを使用して次の操作を行うこともできます。
- Dataproc on Compute Engine クラスタを作成する。
- Dataproc on Compute Engine クラスタにジョブを送信する。
- Google Cloud と Spark のログを表示する。
使用を開始するには、サーバーレスのバッチ セッションとインタラクティブ ノートブック セッションで JupyterLab を使用するをご覧ください。
Spark 用 Dataproc サーバーレスと Compute Engine 上の Dataproc の比較
インフラストラクチャをプロビジョニングして管理し、Spark や他のオープンソース処理フレームワークでワークロードを実行する場合は、Compute Engine 上の Dataproc を使用します。次の表に、Dataproc on Compute Engine と Dataproc Serverless for Spark の主な違いを示します。
可能な操作 | Spark 向け Dataproc サーバーレス | Compute Engine 上の Dataproc |
---|---|---|
処理フレームワーク | バッチ: Spark 3.4 以前のバージョン インタラクティブ: Spark 3.4 以前のバージョンの PySpark カーネル |
Spark 3.3 またはそれより前のバージョン。Hive、Flink、Trino、Kafka などの他のオープンソース フレームワーク |
Serverless | ○ | × |
スタートアップ時間 | 60s | 90s |
インフラストラクチャの制御 | × | ○ |
リソース管理 | Spark ベース | YARN ベース |
GPU のサポート | はい | ○ |
インタラクティブ セッション | ○ | × |
カスタム コンテナ | はい | × |
VM アクセス(SSH など) | × | ○ |
Java のバージョン | Java 17、11 | サポートされている以前のバージョン |
OS Login
サポート * |
× | ○ |
注:
- OS ログイン ポリシーは、Dataproc サーバーレスに適用されず、サポートされません。組織が
OS Login
ポリシーを適用すると、その Dataproc サーバーレス ワークロードは失敗します。
Dataproc サーバーレスのセキュリティ コンプライアンス
Dataproc Serverless は、データ レジデンシ、CMEK、VPC-SC、および Dataproc が準拠しているその他のセキュリティ要件をすべて遵守しています。
Dataproc Serverless for Spark バッチ ワークロード機能
Spark 用 Dataproc サーバーレスでは、次のバッチ ワークロード タイプを実行できます。
- PySpark
- Spark SQL
- Spark R
- Spark(Java または Scala)
Dataproc Serverless for Spark バッチ ワークロードを送信するときに、Spark プロパティを指定できます。