使用 Dataproc Hub


目標

  1. 使用 Dataproc Hub 建立在 Dataproc 叢集上執行的單一使用者 JupyterLab 筆記本環境。

  2. 建立筆記本,並在 Dataproc 叢集上執行 Spark 工作。

  3. 刪除叢集,並將筆記本保留在 Cloud Storage 中。

事前準備

  1. 管理員必須授予您 notebooks.instances.use 權限 (請參閱「設定 Identity and Access Management (IAM) 角色」)。

從 Dataproc Hub 建立 Dataproc JupyterLab 叢集

  1. 在 Google Cloud 控制台的「Dataproc」→「Workbench」頁面中,選取「使用者自行管理的筆記本」分頁。

  2. 在列出管理員建立的 Dataproc Hub 執行個體資料列中,按一下「Open JupyterLab」

    1. 如果您無法存取 Google Cloud 控制台,請在網頁瀏覽器中輸入管理員與您共用的 Dataproc Hub 執行個體網址。
  3. 在「Jupyterhub→Dataproc Options」(Jupyterhub→Dataproc 選項) 頁面中,選取叢集設定和區域。如果啟用,請指定任何自訂項目,然後按一下「建立」

    建立 Dataproc 叢集後,系統會將您重新導向至叢集上執行的 JupyterLab 介面。

建立筆記本並執行 Spark 工作

  1. 在 JupyterLab 介面的左側面板中,按一下 GCS (Cloud Storage)。

  2. 從 JupyterLab 啟動器建立 PySpark 筆記本。

  3. PySpark 核心會初始化 SparkContext (使用 sc 變數)。您可以檢查 SparkContext,並從筆記本執行 Spark 工作。

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. 為筆記本命名並儲存。刪除 Dataproc 叢集後,筆記本會儲存在 Cloud Storage 中。

關閉 Dataproc 叢集

  1. 在 JupyterLab 介面中,選取「File」→「Hub Control Panel」,開啟 Jupyterhub 頁面。

  2. 按一下「Stop My Cluster」(停止我的叢集),關閉 (刪除) JupyterLab 伺服器,並刪除 Dataproc 叢集。

後續步驟