このページでは、Dataproc Serverless インタラクティブ セッションとセッション テンプレートを作成する方法について説明します。セッション テンプレートを使用すると、セッション テンプレートの構成に基づいて複数のインタラクティブ セッションを作成できます。
Dataproc Serverless セッションを作成する
Google Cloud コンソール、Google Cloud CLI、または Dataproc API を使用して、Dataproc サーバーレスのインタラクティブ セッションを作成できます。
Console
Google Cloud コンソールを使用して Dataproc Serverless セッションを作成するには、次の操作を行います。
Google Cloud コンソールで、[インタラクティブ セッション] ページに移動します。
- [作成] をクリックします。
[インタラクティブ セッションを追加する(プレビュー)] ページで、セッション構成の設定を入力または確認します。次の点にご注意ください。
- インタラクティブ セッション名: 必須です。デフォルト名をそのまま使用するか、セッション名を指定します。
- リージョン: 必須。デフォルトのリージョンを受け入れるか、セッションに使用可能なリージョンを指定します。
- ランタイム構成: 省略可。選択可能なセッション ランタイムは、使用可能な Dataproc Serverless for Spark ランタイム バージョンに対応しています。セッションに使用するカスタム コンテナ イメージを指定できます。
- プロパティ: 省略可。セッションに設定するプロパティごとに [アイテムを追加] をクリックします。詳細については、Spark プロパティをご覧ください。
- Spark UI(プレビュー): 省略可。Spark UI を使用して、セッション実行の詳細を収集してモニタリングできます。
- サービス アカウント: 省略可。セッションに使用するサービス アカウント。指定しない場合、Compute Engine のデフォルトのサービス アカウントが使用されます。
- ネットワーク構成: 必須。セッション サブネットワークで限定公開の Google アクセス(PGA)を有効にし、すべてのポートでサブネット通信を許可する必要があります。このセクションには、指定されたセッション リージョンにサブネットワークがあり、PGA が有効になっているネットワークのみが表示されます。詳細については、Dataproc Serverless for Spark のネットワーク構成をご覧ください。
[送信] をクリックしてセッションを作成します。
gcloud
gcloud beta dataproc sessions create command SESSION_NAME
を使用して、Dataproc Serverless インタラクティブ セッションを作成できます。
コマンドフラグに関する注:
--region
: 必須。セッションで使用可能なリージョン。--version
:(省略可)。サポートされている Spark ランタイム バージョン。このフラグを使用してバージョンを指定しない場合は、現在のデフォルトの Spark ランタイム バージョンが使用されます。--container-image
:(省略可)。セッションに使用するカスタム コンテナ イメージ。--property
:(省略可)。セッションの 1 つ以上のカンマ区切りの Spark プロパティ。--service-account
:(省略可)。セッションに使用するサービス アカウント。指定しない場合、Compute Engine のデフォルトのサービス アカウントが使用されます。--subnet
:(省略可)。次の形式の VPC サブネット。projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME
- REGION: セッションに選択した
--region
。 - SUBNET_NAME: サブネットで限定公開の Google アクセス(PGA)を有効にし、すべてのポートでサブネット通信を許可する必要があります。詳細については、Dataproc Serverless for Spark のネットワーク構成をご覧ください。
- REGION: セッションに選択した
REST
Dataproc sessions.create
API を使用して、Dataproc サーバーレスのインタラクティブ セッションを作成できます。
注:
name
: 必須。セッション名。version
:(省略可)。セッションでサポートされている Spark ランタイム バージョン。バージョンを指定しない場合、現在のデフォルト バージョンが使用されます。containerImage
:(省略可)。セッションに使用するカスタム コンテナ イメージ。properties
:(省略可)。セッション プロパティ名と値のマッピング。Spark プロパティをご覧ください。serviceAccount
:(省略可)。セッションの実行に使用するサービス アカウント。指定しない場合、Compute Engine のデフォルトのサービス アカウントが使用されます。subnetworkUri
:(省略可)。セッションの VPC サブネット(次の形式)。 サブネットで限定公開の Google アクセス(PGA)を有効にし、すべてのポートでサブネット通信を許可する必要があります。詳細については、Dataproc Serverless for Spark のネットワーク構成をご覧ください。projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME
Dataproc Serverless セッション テンプレートを作成する
Dataproc Serverless セッション テンプレートでは、1 つ以上の Dataproc Serverless インタラクティブ セッションを作成するための構成設定を定義します。
Google Cloud コンソール、gcloud CLI、または Dataproc API を使用して、Dataproc サーバーレス セッション テンプレートを作成できます。
Console
Google Cloud コンソールを使用して Dataproc サーバーレス セッション テンプレートを作成するには、次の操作を行います。
Google Cloud コンソールで、[インタラクティブ セッション テンプレート] ページに移動します。
- [作成] をクリックします。
[セッション テンプレートの作成] ページで、テンプレートの構成設定を入力または確認します。次の点にご注意ください。
- テンプレート ランタイム ID: 必須です。デフォルトの ID(名前)をそのまま使用するか、テンプレートのランタイム名を指定します。
- リージョン: 必須。デフォルトのリージョンを受け入れるか、テンプレート セッションに使用可能なリージョンを指定します。
- ランタイム バージョン: 省略可。選択可能なセッション ランタイムは、Dataproc Serverless for Spark ランタイム バージョンに対応しています。
- テンプレート構成タイプ: 必須です。種類を選択します。
Jupyter
を選択する場合は、表示名を指定し、Jupyter カーネルタイプを選択します。詳細については、Dataproc Serverless で Jupyter ノートブックを起動するをご覧ください。 - サービス アカウント: 省略可。テンプレート化されたセッションの実行に使用するサービス アカウント。指定しない場合、Compute Engine のデフォルトのサービス アカウントが使用されます。
- カスタム コンテナ イメージ: 省略可。テンプレート化されたセッションに使用するカスタム コンテナ イメージ。
- プロパティ: 省略可。テンプレート化されたセッションに設定するプロパティごとに [アイテムを追加] をクリックします。詳細については、Spark プロパティをご覧ください。
- ネットワーク構成: * 必須。セッション サブネットワークで限定公開の Google アクセス(PGA)を有効にし、すべてのポートでサブネット通信を許可する必要があります。このセクションには、セッション リージョンにサブネットワークがあり、PGA が有効になっているネットワークのみが表示されます。詳細については、Dataproc Serverless for Spark のネットワーク構成をご覧ください。
[送信] をクリックして、セッション テンプレートを作成します。
gcloud
gcloud CLI を使用して Dataproc Serverless セッション テンプレートを直接作成することはできませんが、gcloud beta dataproc session-templates import
コマンドを使用して既存のセッション テンプレートをインポートできます。インポートしたテンプレートを編集し、gcloud beta dataproc session-templates export
コマンドを使用してエクスポートできます。
REST
Dataproc sessionTemplates.create
API を使用して、Dataproc サーバーレス セッション テンプレートを作成できます。
注:
name
: 必須。セッション テンプレート名。version
:(省略可)。テンプレート化されたセッションでサポートされている Spark ランタイム バージョン。バージョンを指定しない場合、デフォルトのバージョンが使用されます。containerImage
:(省略可)。テンプレート化されたセッションに使用するカスタム コンテナ イメージ。properties
:(省略可)。セッション プロパティ名と値のマッピング。Spark プロパティをご覧ください。serviceAccount
:(省略可)。テンプレート化されたセッションの実行に使用するサービス アカウント。指定しない場合、Compute Engine のデフォルトのサービス アカウントが使用されます。subnetworkUri
:(省略可)。テンプレート化されたセッション用の VPC サブネット(次の形式)。 サブネットで限定公開の Google アクセス(PGA)を有効にし、すべてのポートでサブネット通信を許可する必要があります。詳細については、Dataproc Serverless for Spark のネットワーク構成をご覧ください。projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME