Dataproc Serverless を使用すると、独自の Dataproc クラスタのプロビジョニングや管理を行うことなく、Spark ワークロードを実行できます。
Dataproc サーバーレス ワークロードを実行するには、次の 2 つの方法があります。
Dataproc Serverless for Spark バッチ: Google Cloud コンソール、Google Cloud CLI、または Dataproc API を使用して、バッチ ワークロードを Dataproc Serverless サービスに送信します。このサービスは、マネージド コンピューティング インフラストラクチャでワークロードを実行し、必要に応じてリソースを自動スケーリングします。Dataproc サーバーレス料金は、ワークロードが実行されている時間に対してのみ適用されます。
開始するには、Apache Spark バッチ ワークロードを実行するをご覧ください。
Dataproc Serverless for Spark Interactive: Dataproc Serverless for Spark Interactive セッション中に、Jupyter ノートブックでコードを記述して実行します。ノートブック セッションは次の方法で作成できます。
- Dataproc JupyterLab プラグインを使用して、作成および管理するテンプレートから複数のノートブック セッションを作成します。ローカルマシンまたは Compute Engine VM にプラグインをインストールすると、異なる Spark カーネル構成に対応するさまざまなカードが JupyterLab ランチャー ページに表示されます。カードをクリックして Dataproc Serverless ノートブック セッションを作成し、ノートブックでコードの記述とテストを開始します。
また、Dataproc JupyterLab プラグインの JupyterLab ランチャー ページを使用して、次のアクションを実行することもできます。
- Dataproc on Compute Engine クラスタを作成する。
- Dataproc on Compute Engine クラスタにジョブを送信する。
- Google Cloud と Spark のログを表示する。
まず、サーバーレス バッチとインタラクティブ ノートブックのセッションに JupyterLab を使用するをご覧ください。
Spark 用 Dataproc サーバーレスと Compute Engine 上の Dataproc の比較
Dataproc on Compute Engine は、インフラストラクチャをプロビジョニングして管理し、Spark や他のオープンソース処理フレームワークでワークロードを実行する場合に最適です。次の表に、Dataproc on Compute Engine と Dataproc Serverless for Spark の主な違いを示します。
可能な操作 | Spark 向け Dataproc サーバーレス | Compute Engine 上の Dataproc |
---|---|---|
処理フレームワーク | バッチ: Spark 3.4 以前のバージョン インタラクティブ: Spark 3.4 以前のバージョンの PySpark カーネル |
Spark 3.3 またはそれより前のバージョン。Hive、Flink、Trino、Kafka などの他のオープンソース フレームワーク |
Serverless | ○ | × |
スタートアップ時間 | 60s | 90s |
インフラストラクチャの管理 | × | ○ |
リソース管理 | Spark ベース | YARN ベース |
GPU のサポート | 計画済み | ○ |
インタラクティブ セッション | はい | いいえ。 |
カスタム コンテナ | ○ | × |
VM アクセス(SSH など) | × | ○ |
Java のバージョン | Java 17、11 | 以前のバージョンがサポートされている |
OS Login
サポート * |
× | ○ |
注:
- OS ログイン ポリシーは、Dataproc サーバーレスに適用されず、サポートされません。組織が
OS Login
ポリシーを適用すると、その Dataproc サーバーレス ワークロードは失敗します。
Dataproc サーバーレスのセキュリティ コンプライアンス
Dataproc サーバーレスは、Dataproc のすべてのデータ所在地、CMEK、VPC-SC、その他のセキュリティ要件を遵守しています。
Dataproc Serverless for Spark のバッチ ワークロードの機能
Spark バッチ ワークロード タイプでは、次の Dataproc サーバーレスを実行できます。
- PySpark
- Spark SQL
- Spark R
- Spark(Java または Scala)
Dataproc Serverless for Spark バッチ ワークロードを送信するときに、Spark のプロパティを指定できます。