本页介绍了如何创建 Dataproc Serverless 互动式会话和会话模板。会话模板可用于根据会话模板配置创建多个互动式会话。
创建 Dataproc Serverless 会话
您可以使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc API 创建 Dataproc 无服务器 Interactive 会话。
控制台
如需使用 Google Cloud 控制台创建 Dataproc Serverless 会话,请完成以下步骤:
在 Google Cloud 控制台中,前往Interactive Sessions 页面。
- 点击创建。
在添加交互式会话(预览版)页面中,输入或确认会话配置设置。请注意以下几点:
- Interactive session name:必填。接受默认名称或指定会话名称。
- 区域:必需。接受默认区域,或为您的会话指定可用区域。
- 运行时配置:可选。可选择的会话运行时与可用的 Dataproc Serverless for Spark 运行时版本相对应。您可以指定要用于会话的自定义容器映像。
- 属性:可选。针对要为您的会话设置的每个属性点击添加项目。如需了解详情,请参阅 Spark 属性。
- Spark 界面(预览版):可选。您可以使用 Spark 界面收集和监控会话执行详情。
- 服务账号:可选。要用于会话的服务账号。如果未指定,则系统会使用 Compute Engine 默认服务账号。
- 网络配置:必需。会话子网必须启用了专用 Google 访问通道 (PGA),并且必须允许所有端口上的子网通信。本部分仅列出了在已启用 PGA 的指定会话区域中有子网的网络。如需了解详情,请参阅 Dataproc Serverless for Spark 网络配置。
点击提交以创建会话。
gcloud
您可以使用 gcloud beta dataproc sessions create command SESSION_NAME
创建 Dataproc Serverless Interactive 会话。
命令标志说明:
--region
:必填。您的会话的可用区域。--version
:可选。受支持的 Spark 运行时版本。如果您未使用此标志指定版本,则系统会使用当前的默认 Spark 运行时版本。--container-image
:可选。要用于会话的自定义容器映像。--property
:可选。您的会话的一个或多个以逗号分隔的 Spark 属性。--service-account
:可选。要用于会话的服务账号。如果未指定,则系统会使用 Compute Engine 默认服务账号。projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME
- REGION:您为会话选择的
--region
。 - SUBNET_NAME:子网必须启用专用 Google 访问通道 (PGA),并允许所有端口上的子网通信。如需了解详情,请参阅 Dataproc Serverless for Spark 网络配置。
- REGION:您为会话选择的
REST
您可以使用 Dataproc sessions.create
API 创建 Dataproc Serverless Interactive 会话。
注意:
name
:必填。会话名称。version
:可选。您的会话所用的任何受支持的 Spark 运行时版本。如果您未指定版本,则系统会使用当前的默认版本。containerImage
:可选。要用于会话的自定义容器映像。properties
:可选。将会话属性名称映射到值。请参阅 Spark 属性。serviceAccount
:可选。用于运行会话的服务账号。如果未指定,则系统会使用 Compute Engine 默认服务账号。subnetworkUri
:可选。您的会话的 VPC 子网,格式如下: 子网必须启用专用 Google 访问通道 (PGA),并允许所有端口上的子网通信。如需了解详情,请参阅 Dataproc Serverless for Spark 网络配置。projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME
创建 Dataproc Serverless 会话模板
Dataproc Serverless 会话模板用于定义用于创建一个或多个 Dataproc Serverless Interactive 会话的配置设置。
您可以使用 Google Cloud 控制台、gcloud CLI 或 Dataproc API 创建 Dataproc 无服务器会话模板。
控制台
如需使用 Google Cloud 控制台创建 Dataproc Serverless 会话模板,请完成以下步骤:
在 Google Cloud 控制台中,前往互动式会话模板页面。
- 点击创建。
在创建会话模板页面中,输入或确认模板配置设置。请注意以下几点:
- 模板运行时 ID:必填。接受默认 ID(名称)或指定模板运行时名称。
- 区域:必需。接受默认区域,或为模板会话指定可用区域。
- 运行时版本:可选。可选择的会话运行时与 Dataproc Serverless for Spark 运行时版本相对应。
- 模板配置类型:必填。选择类型。如果您选择
Jupyter
,请指定显示名称,然后选择 Jupyter 内核类型。如需了解详情,请参阅在 Dataproc Serverless 上启动 Jupyter 笔记本。 - 服务账号:可选。用于运行模板化会话的服务账号。如果未指定,则系统会使用 Compute Engine 默认服务账号。
- 自定义容器映像:可选。用于模板化会话的自定义容器映像。
- 属性:可选。点击添加项目,为模板化会话设置每项属性。如需了解详情,请参阅 Spark 属性。
- 网络配置:*必填。会话子网必须启用了专用 Google 访问通道 (PGA),并且必须允许所有端口上的子网通信。本部分仅列出了在已启用 PGA 的会话区域中具有子网的网络。如需了解详情,请参阅 Dataproc Serverless for Spark 网络配置。
点击提交以创建会话模板。
gcloud
您无法使用 gcloud CLI 直接创建 Dataproc 无服务器会话模板,但可以使用 gcloud beta dataproc session-templates import
命令导入现有会话模板。您可以修改导入的模板,然后使用 gcloud beta dataproc session-templates export
命令将其导出。
REST
您可以使用 Dataproc sessionTemplates.create
API 创建 Dataproc Serverless 会话模板。
注意:
name
:必填。会话模板名称。version
:可选。适用于模板化会话的任何受支持的 Spark 运行时版本。如果您未指定版本,则系统会使用默认版本。containerImage
:可选。用于模板化会话的自定义容器映像。properties
:可选。将会话属性名称映射到值。请参阅 Spark 属性。serviceAccount
:可选。用于运行模板化会话的服务账号。如果未指定,则系统会使用 Compute Engine 默认服务账号。subnetworkUri
:可选。模板化会话的 VPC 子网,格式如下: 子网必须启用专用 Google 访问通道 (PGA),并允许所有端口上的子网通信。如需了解详情,请参阅 Dataproc Serverless for Spark 网络配置。projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME