このページは Cloud Translation API によって翻訳されました。

Serverless for Apache Spark の概要

Google Cloud Apache Spark 向け Serverless を使用すると、独自の Dataproc クラスタのプロビジョニングと管理を行うことなく、Spark ワークロードを実行できます。Apache Spark 向け Serverless ワークロードを実行するには、次の 2 つの方法があります。

バッチワークロード
インタラクティブセッション

バッチワークロード

Google Cloud コンソール、Google Cloud CLI、または Dataproc API を使用して、Apache Spark 向け Serverless サービスにバッチワークロードを送信します。このサービスは、マネージドコンピューティングインフラストラクチャでワークロードを実行し、必要に応じてリソースを自動スケーリングします。Apache Spark 向けサーバーレスの料金は、ワークロードが実行されている時間に対してのみ適用されます。

開始するには、Apache Spark バッチワークロードを実行するをご覧ください。

インタラクティブセッション

Serverless for Apache Spark for Spark インタラクティブセッションでは、Jupyter ノートブックでコードを記述、実行します。ノートブックセッションは次の方法で作成できます。

BigQuery Studio ノートブックで PySpark コードを実行する。BigQuery Python ノートブックを使用して、Spark Connect ベースの Serverless for Apache Spark インタラクティブセッションを作成します。各 BigQuery ノートブックには、アクティブな Serverless for Apache Spark セッションを 1 つだけ関連付けることができます。
Dataproc JupyterLab プラグインを使用すると、作成および管理するテンプレートから複数の Jupyter ノートブックセッションを作成できます。ローカルマシンまたは Compute Engine VM にプラグインをインストールすると、さまざまな Spark カーネル構成に対応するさまざまなカードが JupyterLab ランチャーページに表示されます。カードをクリックして Apache Spark 用 Serverless ノートブックセッションを作成し、ノートブックでコードの記述とテストを開始します。

Dataproc JupyterLab プラグインを使用すると、JupyterLab ランチャーページで次の操作を行うこともできます。
- Dataproc on Compute Engine クラスタを作成する。
- Dataproc on Compute Engine クラスタにジョブを送信する。
- Google Cloud と Spark のログを表示する。

Apache Spark 用サーバーレスと Compute Engine 上の Dataproc の比較

インフラストラクチャをプロビジョニングして管理し、Spark や他のオープンソース処理フレームワークでワークロードを実行する場合は、Compute Engine 上の Dataproc を使用します。次の表に、Compute Engine 上の Dataproc と Apache Spark 用サーバーレスの主な違いを示します。

能力	Apache Spark 向け Serverless	Compute Engine 上の Dataproc
処理フレームワーク	バッチワークロード: Spark 3.5 以前のバージョンインタラクティブセッション: Spark 3.5 以前のバージョン	Spark 3.5 以前のバージョン。その他のオープンソースフレームワーク（Hive、Flink、Trino、Kafka など）
サーバーレス	○	×
スタートアップ時間	60s	90s
インフラストラクチャの制御	×	○
リソース管理	Spark ベース	YARN ベース
GPU のサポート	はい	○
インタラクティブセッション	○	×
カスタムコンテナ	はい	×
VM アクセス（SSH など）	×	○
Java のバージョン	Java 17、11	サポートされている以前のバージョン

セキュリティコンプライアンス

Apache Spark 向け Serverless は、Dataproc が準拠しているすべてのデータ所在地、CMEK、VPC-SC、その他のセキュリティ要件に準拠しています。

バッチワークロードの機能

次の Apache Spark 向け Serverless バッチワークロードタイプを実行できます。

PySpark
Spark SQL
Spark R
Spark（Java または Scala）

Apache Spark 用サーバーレスバッチワークロードを送信するときに、Spark プロパティを指定できます。

Serverless for Apache Spark の概要

バッチ ワークロード

インタラクティブ セッション

Apache Spark 用サーバーレスと Compute Engine 上の Dataproc の比較

セキュリティ コンプライアンス

バッチ ワークロードの機能

バッチワークロード

インタラクティブセッション

セキュリティコンプライアンス

バッチワークロードの機能