本頁面說明如何建立 Serverless for Apache Spark 互動式工作階段和工作階段範本。您可以根據工作階段範本設定,建立多個互動式工作階段。
建立互動工作階段
您可以使用 Google Cloud CLI 或 Dataproc API,建立 Serverless for Apache Spark 互動式工作階段。
gcloud
您可以使用 gcloud beta dataproc sessions create command SESSION_NAME
建立 Serverless for Apache Spark 互動式工作階段。
gcloud beta dataproc sessions create spark SESSION_ID \ --location=REGION \ optional flags ...
取代或新增下列項目:
SESSION_ID:必填。工作階段的 ID。
REGION:必填。可用地區,可供您尋找工作階段。
--version
: 選用。支援的 Spark 執行階段版本。如果您未使用這個旗標指定版本,系統會使用目前的預設 Spark 執行階段版本。--container-image
: 選用。用於工作階段的自訂容器映像檔。--property
: 選用。以半形逗號分隔的一或多個工作階段 Spark 屬性。--service-account
: 選用。工作階段要使用的服務帳戶。如未指定,系統會使用 Compute Engine 預設服務帳戶。--subnet
: 選用。工作階段區域中的子網路名稱。如未指定,Serverless for Apache Spark 會使用工作階段地區中的default
子網路。Serverless for Apache Spark 會在子網路上啟用私人 Google 存取權 (PGA)。如需網路連線需求,請參閱「Google Cloud Serverless for Apache Spark 網路設定」。
REST
您可以使用 Dataproc
sessions.create
API 建立 Serverless for Apache Spark 互動式工作階段。
注意:
name
: 必要。工作階段名稱。version
: 選用。工作階段支援的任何 Spark 執行階段版本。如果您沒有指定版本,則會使用目前的預設版本。containerImage
: 選用。用於工作階段的自訂容器映像檔。properties
: 選用。工作階段屬性名稱與值的對應。請參閱「Spark 屬性」。serviceAccount
: 選用。用來執行工作階段的服務帳戶。如未指定,系統會使用 Compute Engine 預設服務帳戶。subnetworkUri
: 選用。工作階段區域中的子網路名稱。如未指定,Serverless for Apache Spark 會使用工作階段地區中的default
子網路。Serverless for Apache Spark 會在子網路上啟用私人 Google 存取權 (PGA)。如需網路連線需求,請參閱「Google Cloud Serverless for Apache Spark 網路設定」。
建立工作階段範本
Serverless for Apache Spark 工作階段範本會定義設定,用於建立一或多個 Serverless for Apache Spark 互動式工作階段。您可以使用 Google Cloud 控制台、gcloud CLI 或 Dataproc API,為 Jupyter 或 Spark Connect 工作階段建立 Serverless for Apache Spark 工作階段範本。
控制台
如要使用 Google Cloud 主控台建立 Serverless for Apache Spark 工作階段範本,請完成下列步驟:
前往 Google Cloud 控制台的「Session Templates」(工作階段範本) 頁面。
- 點選「建立」。
在「建立工作階段範本」頁面中,輸入或確認範本設定。注意事項:
- 範本執行階段 ID:必要欄位。接受預設 ID (名稱),或指定範本執行階段名稱。
- 區域:必填。接受預設區域,或為範本工作階段指定可用區域。
- 執行階段版本:選填。可選取的工作階段執行階段對應至
Serverless for Apache Spark 執行階段版本。
- BigQuery Studio 筆記本工作階段規定: 如果您要建立範本,供 BigQuery Studio 筆記本 Spark Connect 工作階段使用,則範本必須使用 Spark 執行階段 2.3 以上版本。
- 範本設定類型:必填。選取類型。如果選取
Jupyter
,請指定「顯示名稱」並選取「Jupyter 核心類型」。 另請參閱「在 Serverless for Apache Spark 上啟動 Jupyter 筆記本」。- BigQuery Studio 筆記本工作階段規定: BigQuery Studio 筆記本工作階段 必須指定 Spark Connect 做為範本設定類型。
- 服務帳戶:選用。用於執行範本化工作階段的服務帳戶。如未指定,系統會使用 Compute Engine 預設服務帳戶。
- 自訂容器映像檔:選用。用於範本化工作階段的自訂容器映像檔。
- 屬性:選用。針對每個要為範本化工作階段設定的屬性,按一下「新增項目」。詳情請參閱「Spark 屬性」。
- 網路設定: * 必要。在工作階段區域中選取子網路。Serverless for Apache Spark 會在指定的子網路上啟用私人 Google 存取權 (PGA)。如需網路連線需求,請參閱「Google Cloud Serverless for Apache Spark 網路設定」。
按一下「提交」,建立工作階段範本。
gcloud
您無法使用 gcloud CLI 直接建立 Serverless for Apache Spark 工作階段範本,但可以使用 gcloud beta dataproc session-templates import
指令匯入現有工作階段範本。您可以編輯匯入的範本,然後使用 gcloud beta dataproc session-templates export
指令匯出。
REST
您可以使用 Dataproc sessionTemplates.create
API 建立 Serverless for Apache Spark 工作階段範本。
注意:
name
: 必要。工作階段範本名稱。version
: 選用。範本工作階段支援的任何 Spark 執行階段版本。如果您沒有指定版本,則會使用預設版本。- BigQuery Studio 筆記本工作階段規定: 如果您要建立範本,供 BigQuery Studio 筆記本 Spark Connect 工作階段使用,則範本必須使用 Spark 執行階段 2.3 以上版本。
sessionConfig
:指定jupyter_session
或spark_connect_session
。如果指定jupyter_session
,也請指定JupyterConfig.display_name
和JupyterConfig.kernel
。另請參閱「在 Serverless for Apache Spark 上啟動 Jupyter 筆記本」。- BigQuery Studio 筆記本工作階段規定: BigQuery Studio 筆記本工作階段必須指定 Spark Connect 做為範本設定類型。
containerImage
: 選用。用於範本化工作階段的自訂容器映像檔。properties
: 選用。工作階段屬性名稱與值的對應。請參閱「Spark 屬性」。serviceAccount
: 選用。用於執行範本化工作階段的服務帳戶。如未指定,系統會使用 Compute Engine 預設服務帳戶。subnetworkUri
: 選用。工作階段區域中的子網路名稱。如未指定,Serverless for Apache Spark 會使用工作階段地區中的default
子網路。Serverless for Apache Spark 會在子網路上啟用私人 Google 存取權 (PGA)。如需網路連線需求,請參閱「Google Cloud Serverless for Apache Spark 網路設定」。