本頁面由 Cloud Translation API 翻譯而成。

Dataproc 選用 Jupyter 元件

當您使用選用元件功能建立 Dataproc 叢集時，可以安裝 Jupyter 等其他元件。本頁面提供了 Jupyter 元件的描述。

Jupyter 元件是網頁式單一使用者筆記本，可用於進行互動式資料分析，並支援 JupyterLab 網頁版 UI。Jupyter 網頁版 UI 位於叢集的第一個主要節點的 8123 通訊埠上。

為多位使用者啟動筆記本。您可以建立啟用 Dataproc 的 Vertex AI Workbench 執行個體，或在 VM 上安裝 Dataproc JupyterLab 外掛程式，為多位使用者提供筆記本服務。

設定 Jupyter。您可以提供 dataproc:jupyter 叢集屬性來設定 Jupyter。為降低透過不安全的 Notebook 伺服器 API 執行遠端程式碼的風險，預設 dataproc:jupyter.listen.all.interfaces 叢集屬性設定為 false，啟用元件閘道時，系統會將連線限制為 localhost (127.0.0.1) (安裝 Jupyter 元件時必須啟用元件閘道)。

Jupyter 筆記本提供 Python 核心，用來執行 Spark 程式碼和 PySpark 核心。根據預設，筆記本會儲存在 Cloud Storage 中，即在叢集建立期間由使用者指定或系統自動建立的 Dataproc 暫存值區。此位置可在叢集建立時使用 dataproc:jupyter.notebook.gcs.dir 叢集屬性更改。

使用資料檔案。您可以使用 Jupyter 筆記本處理上傳至 Cloud Storage 的資料檔案。由於 Cloud Storage 連接器已預先安裝在 Dataproc 叢集上，因此您可以直接從筆記本中參考檔案。以下範例說明如何存取 Cloud Storage 中的 CSV 檔案：

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

如需 PySpark 範例，請參閱「一般載入和儲存功能」。

安裝 Jupyter

請在建立 Dataproc 叢集時安裝元件。Jupyter 元件需要啟動 Dataproc 元件閘道。

控制台

啟用元件。
- 在 Google Cloud 控制台中，開啟 Dataproc 的「建立叢集」頁面。系統會選取「設定叢集」面板。
- 在「Components」部分按照下列步驟操作：
  - 在「選用元件」下方，選取「Jupyter」元件。
  - 在「元件閘道」下方，選取「啟用元件閘道」(請參閱查看及存取元件閘道網址)。

gcloud CLI

如要建立包含 Jupyter 元件的 Dataproc 叢集，請使用 gcloud dataproc clusters create cluster-name 指令搭配 --optional-components 標記。

最新預設圖片版本範例

以下範例會在叢集上安裝 Jupyter 元件，該叢集使用最新的預設映像檔版本。

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

REST API

您可以透過 Dataproc API，使用 SoftwareConfig.Component 安裝 Jupyter 元件，做為 clusters.create 要求的一部分。

將 EndpointConfig.enableHttpPortAccess 屬性設為 true，使其成為 clusters.create 要求的一部分，如此才能使用元件閘道連線到 Jupyter Notebook 網頁版 UI。

開啟 Jupyter 和 JupyterLab UI

按一下主控台的「元件閘道」連結，即可在本機瀏覽器中開啟在叢集主要節點上執行的 Jupyter 筆記本或 JupyterLab UI。Google Cloud

選取「GCS」或「本機磁碟」，即可在任一位置建立新的 Jupyter Notebook。

將 GPU 附加至主要節點和工作站節點

使用 Jupyter Notebook 時，您可以將 GPU 新增至叢集的主要和工作站節點，以便：

在 Spark 中預先處理資料，然後將 DataFrame 收集到主節點上，並執行 TensorFlow
使用 Spark 平行調度管理 TensorFlow 執行作業
執行 Tensorflow-on-YARN
搭配使用 GPU 的其他機器學習情境