本頁面由 Cloud Translation API 翻譯而成。

使用 Dataproc Hub

目標

使用 Dataproc Hub 建立在 Dataproc 叢集上執行的單一使用者 JupyterLab 筆記本環境。
建立筆記本，並在 Dataproc 叢集上執行 Spark 工作。
刪除叢集，並將筆記本保留在 Cloud Storage 中。

事前準備

管理員必須授予您 notebooks.instances.use 權限 (請參閱「設定 Identity and Access Management (IAM) 角色」)。

從 Dataproc Hub 建立 Dataproc JupyterLab 叢集

在 Google Cloud 控制台的「Dataproc」→「Workbench」頁面中，選取「使用者自行管理的筆記本」分頁。
在列出管理員建立的 Dataproc Hub 執行個體資料列中，按一下「Open JupyterLab」。
1. 如果您無法存取 Google Cloud 控制台，請在網頁瀏覽器中輸入管理員與您共用的 Dataproc Hub 執行個體網址。
在「Jupyterhub→Dataproc Options」(Jupyterhub→Dataproc 選項) 頁面中，選取叢集設定和區域。如果啟用，請指定任何自訂項目，然後按一下「建立」。

建立 Dataproc 叢集後，系統會將您重新導向至叢集上執行的 JupyterLab 介面。

建立筆記本並執行 Spark 工作

在 JupyterLab 介面的左側面板中，按一下 GCS (Cloud Storage)。
從 JupyterLab 啟動器建立 PySpark 筆記本。

PySpark 核心會初始化 SparkContext (使用 sc 變數)。您可以檢查 SparkContext，並從筆記本執行 Spark 工作。

rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
       .map(lambda word: (word, 1))
       .reduceByKey(lambda a, b: a + b))
print(rdd.collect())

為筆記本命名並儲存。刪除 Dataproc 叢集後，筆記本會儲存在 Cloud Storage 中。

關閉 Dataproc 叢集

在 JupyterLab 介面中，選取「File」→「Hub Control Panel」，開啟 Jupyterhub 頁面。

使用 Dataproc 映像檔 1.4 版或更早版本時，請前往 /hub/home 存取 Jupyterhub 頁面。
按一下「Stop My Cluster」(停止我的叢集)，關閉 (刪除) JupyterLab 伺服器，並刪除 Dataproc 叢集。

停止伺服器並刪除叢集不會刪除 Dataproc Hub 執行個體。您可以點選 Jupyterhub (Hub 控制面板) 頁面上的「Start my server」，或在 Google Cloud 控制台的「Dataproc」→「Workbench」→「User-Managed Notebooks」(使用者自行管理的筆記本) 頁面上，選取 Dataproc Hub 執行個體的「Open JupyterLab」連結，開啟並設定另一個 Dataproc JupyterLab 叢集。

後續步驟

在 GitHub 上探索 Dataproc 上的 Spark 和 Jupyter 筆記本。

使用 Dataproc Hub 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

目標

事前準備

從 Dataproc Hub 建立 Dataproc JupyterLab 叢集

建立筆記本並執行 Spark 工作

關閉 Dataproc 叢集

後續步驟

使用 Dataproc Hub